注: 以下の翻訳の正確性は検証されていません。AIPを利用して英語版の原文から機械的に翻訳されたものです。

3 - ユーザーの「変換済み」データセットのためのコードを追加する

📖 タスクの概要

複数のデータセット出力を生成する変換コードを追加する前に、ユーザーのフライトアラートと乗客データソースプロジェクトからの3つのクリーンな出力データセットをPySparkを使ってシンプルに結合します。これは、/transformedコードフォルダーで行うタイプの「事前作業」です。

🔨 タスクの説明

  1. ユーザーのリポジトリ内の/transformedフォルダーを右クリックし、flight_alerts_joined_passengers.pyという新しいファイルを追加します。

  2. 新しいPythonトランスフォームファイルのデフォルトのコードを下記のコードブロックで置き換えます。

    from transforms.api import transform_df, Input, Output
    
    
    @transform_df(
        Output("/${namespace}/Temporary Training Artifacts/${yourName}/Data Engineering Tutorials/Transform Project: Alert Metrics/data/transformed/flight_alerts_joined_passengers"),
        flight_alerts_df=Input("${flight_alerts_clean_RID}"),
        passengers_df=Input("${passengers_clean_RID}"),
        join_table_df=Input("${passenger_flight_alerts_clean_RID}"),
    )
    def compute(flight_alerts_df, passengers_df, join_table_df):
    
        # join flight alert data to passenger data by using the passenger_flight_alerts_clean join table
        joined_df = (
            flight_alerts_df
            .join(join_table_df, on='alert_display_name', how='left')
            .join(passengers_df, on='passenger_id', how='left')
        )
    
        return joined_df
    
  3. コード内の以下の行を置き換えます:

    • ${namespace}ユーザーの ネームスペースで置き換えます

    • ${yourName}ユーザーの /Tutorial Practice Artifactsフォルダー名で置き換えます

    • ${flight_alerts_clean_RID}ユーザーの Datasource Project: Flight Alertsプロジェクトのflight_alerts_cleanデータセットのRIDで置き換えます

    • ${passengers_clean_RID}ユーザーの Datasource Project: Passengersプロジェクトのpassengers_cleanデータセットのRIDで置き換えます

    • ${passenger_flight_alerts_clean_RID}ユーザーの Datasource Project: Passengersプロジェクトのpassenger_flight_alerts_cleanデータセットのRIDで置き換えます。

      • ℹ️ ユーザーはリポジトリのFoundry Explorerヘルパーを使ってコードで参照したいデータセットを検索することができるのをご存知でしたか?ヘルパーを開き、希望のデータセットへのフォルダーパスをたどり、データセットをクリックした後、以下に示すように詳細セクションからフォルダーパスまたはRIDを取得します(RIDを取得するには、追加の詳細を展開するためにもっと見るリンクをクリックする必要があります)。
  4. プレビューボタンを使用してコードの出力をテストします。

  5. 適切で説明的なメッセージ(例えば、「feature: add joined dataset」)でコードをユーザーのブランチにコミットします。

  6. ユーザーのブランチ上でコードをビルドし、成功の完了を確認します。

  7. 成功した場合、PRプロセスを完了し、ユーザーのブランチをMasterにマージします。

  8. Masterブランチ上でコードをビルドします。