5C. [Repositories] データ変換による複数の出力6 - 演習のまとめ

注: 以下の翻訳の正確性は検証されていません。AIPを利用して英語版の原文から機械的に翻訳されたものです。

6 - 演習のまとめ

✅ 演習での成果物

  • /Transform Project: Alert Metrics プロジェクトフォルダーを作成し、提案されたサブフォルダーを配置しました。
  • 新しい flight_alert_metrics_logic リポジトリを作成しました。
  • パイプラインのデータソース段階のクリーンな出力を簡単に結合した変換済みデータセットを作成しました。
  • 乗客の出身国に基づいて(8)つの出力をプログラムで作成する生成された変換を作成しました。
  • 乗客の flyer_status とアラートの priority によってフィルター処理されたデータフレームを(3)つの別々のデータセットに書き込むマルチ出力変換を作成しました。

✅ 学習した内容

  1. Transform Project は通常、ソースを組み合わせ、追加のビジネスロジックを適用してオントロジー対応のデータセットを生成します。一般的に、これらのデータセットは一般的な使用を目的としていません。

  2. リポジトリのFoundry Explorerヘルパーを画面の左下で使用して、コードで参照したいデータセットを検索できます。

  3. フォールバックブランチの概念により、Foundry のビルドプロセスは、現在のブランチに対応するブランチが見つからない場合、入力の Master ブランチに "フォールバック" します。リポジトリのSettings → Branches → Fallback Branchesで、連続したフォールバックブランチの動作を定義することもできます。

  4. 今回のマルチ出力変換演習では、コードが入力データセットを一度だけ読み込み、処理します。同じデータ変換ロジックを複数の変換オブジェクトで再利用したい場合は、生成された変換を使用します。例えば、次のような場合に生成された変換を検討します。

    • 入力データセットにはさまざまな国に関する情報が含まれており、そのコードは国ごとに入力をフィルター処理し、統計情報を計算します。
    • 複数の入力データセットに null 値が含まれる可能性があり、null を削除するコードを適用したい場合。

これらの 2 つのケースでは、同じデータ変換コードを複数の変換で使用すると便利です。出力ごとに変換オブジェクトを個別に定義するのではなく、forループを使用して変換オブジェクトを生成できます。