注: 以下の翻訳の正確性は検証されていません。AIPを利用して英語版の原文から機械的に翻訳されたものです。
この内容は learn.palantir.com ↗ でもご覧いただけますが、アクセシビリティの観点から、ここに掲載しています。
複数のデータセット出力を作成するトランスフォームコードを追加する前に、まず PySpark を使用してユーザーのフライトアラートと乗客データソースプロジェクトから得られた3つのクリーンな出力データセットを単純に結合します。これが /transformed
コードフォルダーで行う「事前作業」のタイプです。
リポジトリ内の /transformed
フォルダーを右クリックし、新しいファイル flight_alerts_joined_passengers.py を追加します。
新しい Python トランスフォームファイルのデフォルトコードを以下のコードブロックに置き換えます。
from transforms.api import transform_df, Input, Output
@transform_df(
Output("/${space}/Temporary Training Artifacts/${yourName}/Data Engineering Tutorials/Transform Project: Alert Metrics/data/transformed/flight_alerts_joined_passengers"),
flight_alerts_df=Input("${flight_alerts_clean_RID}"),
passengers_df=Input("${passengers_clean_RID}"),
join_table_df=Input("${passenger_flight_alerts_clean_RID}"),
)
def compute(flight_alerts_df, passengers_df, join_table_df):
# join flight alert data to passenger data by using the passenger_flight_alerts_clean join table
joined_df = (
flight_alerts_df
.join(join_table_df, on='alert_display_name', how='left')
.join(passengers_df, on='passenger_id', how='left')
)
return joined_df
コード内の以下の行を置き換えます:
${space}
をユーザーの space に
${yourName}
をユーザーの /Tutorial Practice Artifacts
フォルダー名に
${flight_alerts_clean_RID}
をユーザーの Datasource Project: Flight Alerts プロジェクト内の flight_alerts_clean
データセットの RID に
${passengers_clean_RID}
をユーザーの Datasource Project: Passengers プロジェクト内の passengers_clean
データセットの RID に
${passenger_flight_alerts_clean_RID}
をユーザーの Datasource Project: Passengers プロジェクト内の passenger_flight_alerts_clean
データセットの RID に
プレビュー ボタンを使用してコードの出力をテストします。
合理的で説明的なメッセージ(例:「機能:結合データセットを追加」)でコードをブランチにコミットします。
ブランチ上でコードをビルドし、成功を確認します。
成功した場合、PR プロセスを完了し、ブランチを Master
にマージします。
Master
ブランチ上でコードをビルドします。