注: 以下の翻訳の正確性は検証されていません。AIPを利用して英語版の原文から機械的に翻訳されたものです。
この内容は learn.palantir.com ↗ でもご覧いただけますが、アクセシビリティの観点から、ここに掲載しています。
トランスフォームプロジェクトは通常、ソースを結合し、追加のビジネスロジックを適用して、強化されたデータセットを生成します。一般的に、これらのデータセットはオントロジープロジェクトの段階にあるもののように、一般に公開されることを意図していません。このタスクでは、フライトアラートと乗客のデータソースプロジェクトからの 3 個のクリーンな出力データセットをシンプルに結合します。これは /transformed
コードフォルダーで行う「事前作業」の一例です。
フライトアラートのデータセット(約 2.5k 行)から開始します。乗客データ(約 10k 行)との最終的な結合を可能にするために、まず passenger_flight_alert_clean
結合テーブル(約 132k 行)を使用する必要があります。このテーブルには、フライトアラートと乗客テーブルの主キーが含まれています。
前の演習で作成した /transformed
フォルダーを開きます。
Pipeline Builder で passengers_flight_alerts_transformed
という名前の新しいバッチパイプラインを作成します。
このラーニングパスで作成した次のクリーンデータセットを追加します:
flight_alerts_clean
passengers_clean
passenger_flight_alert_clean
flight_alerts_clean
にトランスフォームを追加し、alert_display_name
で passenger_flight_alert_clean
を左結合します。
トランスフォームに Alerts to Join Table
という名前を付けます。
Alerts to Join Table
トランスフォームを passengers_clean
に passenger_id
を共有キーとして使用して結合する新しいトランスフォーム Alerts to Passengers
を作成します。
パイプラインを保存します。