注: 以下の翻訳の正確性は検証されていません。AIPを利用して英語版の原文から機械的に翻訳されたものです。
複数のデータセット出力を生成する変換コードを追加する前に、ユーザーのフライトアラートと乗客データソースプロジェクトからの3つのクリーンな出力データセットをPySparkを使ってシンプルに結合します。これは、/transformed
コードフォルダーで行うタイプの「事前作業」です。
ユーザーのリポジトリ内の/transformed
フォルダーを右クリックし、flight_alerts_joined_passengers.pyという新しいファイルを追加します。
新しいPythonトランスフォームファイルのデフォルトのコードを下記のコードブロックで置き換えます。
from transforms.api import transform_df, Input, Output
@transform_df(
Output("/${namespace}/Temporary Training Artifacts/${yourName}/Data Engineering Tutorials/Transform Project: Alert Metrics/data/transformed/flight_alerts_joined_passengers"),
flight_alerts_df=Input("${flight_alerts_clean_RID}"),
passengers_df=Input("${passengers_clean_RID}"),
join_table_df=Input("${passenger_flight_alerts_clean_RID}"),
)
def compute(flight_alerts_df, passengers_df, join_table_df):
# join flight alert data to passenger data by using the passenger_flight_alerts_clean join table
joined_df = (
flight_alerts_df
.join(join_table_df, on='alert_display_name', how='left')
.join(passengers_df, on='passenger_id', how='left')
)
return joined_df
コード内の以下の行を置き換えます:
${namespace}
を ユーザーの ネームスペースで置き換えます
${yourName}
を ユーザーの /Tutorial Practice Artifacts
フォルダー名で置き換えます
${flight_alerts_clean_RID}
を ユーザーの Datasource Project: Flight Alertsプロジェクトのflight_alerts_clean
データセットのRIDで置き換えます
${passengers_clean_RID}
を ユーザーの Datasource Project: Passengersプロジェクトのpassengers_clean
データセットのRIDで置き換えます
${passenger_flight_alerts_clean_RID}
を ユーザーの Datasource Project: Passengersプロジェクトのpassenger_flight_alerts_clean
データセットのRIDで置き換えます。
プレビューボタンを使用してコードの出力をテストします。
適切で説明的なメッセージ(例えば、「feature: add joined dataset」)でコードをユーザーのブランチにコミットします。
ユーザーのブランチ上でコードをビルドし、成功の完了を確認します。
成功した場合、PRプロセスを完了し、ユーザーのブランチをMaster
にマージします。
Master
ブランチ上でコードをビルドします。