注: 以下の翻訳の正確性は検証されていません。AIPを利用して英語版の原文から機械的に翻訳されたものです。
Transformプロジェクトでは、通常、ソースを組み合わせ、追加のビジネスロジックを適用して、エンリッチされたデータセットを生成します。一般的に、これらのデータセットは、オントロジープロジェクトステージのもののように、一般的な公開を目的としていません。このタスクでは、フライトアラートと乗客のデータソースプロジェクトから得られた3つのクリーンな出力データセットを単純に結合します。これは、/transformed
コードフォルダーで実施するタイプの「前処理」です。
まず、フライトアラートのデータセット(約2.5k行)から始めます。乗客データ(約10k行)との結合を可能にするために、まずpassenger_flight_alert_clean
結合テーブル(約132k行)を使用する必要があります。これには、フライトアラートと乗客テーブルの主キーが含まれています。
前回の演習で作成した /transformed
フォルダーを開きます。
Pipeline Builder で passengers_flight_alerts_transformed
という名前の新しいバッチパイプラインを作成します。
このラーニングパスで作成した次のクリーンデータセットを追加します:
flight_alerts_clean
passengers_clean
passenger_flight_alert_clean
flight_alerts_clean
に、alert_display_name
を使って passenger_flight_alert_clean
と左結合する変換を追加します。
変換の名前を Alerts to Join Table
にします。
Alerts to Join Table
変換を passengers_clean
に結合し、passenger_id
を共有キーとして使用する新しい変換 Alerts to Passengers
を作成します。
パイプラインを保存します。