5C. [Repositories] Multiple Outputs with Data Transforms6 - 演習のまとめ
Warning

注: 以下の翻訳の正確性は検証されていません。AIPを利用して英語版の原文から機械的に翻訳されたものです。

6 - 演習のまとめ

learn.palantir.com でも以下の内容をご覧いただけますが、アクセシビリティの観点から、ここに掲載しています。

✅ 演習での成果物

  • 提案されたサブフォルダーを備えた /Transform Project: Alert Metrics プロジェクトフォルダー。
  • 新しい flight_alert_metrics_logic リポジトリ。
  • パイプラインのデータソース段階からのクリーンな出力を単純に結合した 変換済み データセット。
  • 乗客の出身国に基づいて (8) の出力をプログラムで作成した 生成された変換
  • 乗客の flyer_status とアラートの priority によってフィルター処理されたデータフレームを (3) の異なるデータセットに書き込む マルチ出力変換

✅ 学習した内容

  1. Transform Project は通常、ソースを組み合わせ、追加のビジネスロジックを適用してオントロジー対応データセットを生成します。一般的に、これらのデータセットは一般的な使用を意図したものでは ありません

  2. リポジトリの Foundry Explorer ヘルパーを画面の左下に表示して、コードで参照したいデータセットを検索できます。

  3. フォールバックブランチ の概念により、Foundry のビルドプロセスは、現在のブランチに対応するブランチが見つからない場合、入力の Master ブランチに "フォールバック" します。リポジトリの Settings → Branches → Fallback Branches で、逐次的なフォールバックブランチの動作を定義することもできます。

  4. 今回の マルチ出力変換 演習では、コードが入力データセットを 1回だけ 読み取り、処理します。同じデータ変換ロジックを複数の変換オブジェクトで再利用したい場合は、生成された変換 を使用します。例えば、以下の場合には 生成された変換 を検討します。

    • 入力データセットにはさまざまな国に関する情報があり、国ごとに入力を絞り込み、統計を計算するコードがあります。
    • 複数の入力データセットに null 値が含まれる可能性があり、null を削除するコードを適用したい場合。

これらの2つのケースでは、複数の変換で同じデータ変換コードを使用すると便利です。出力ごとに個別に変換オブジェクトを定義するのではなく、forループを使用して変換オブジェクトを生成できます。