注: 以下の翻訳の正確性は検証されていません。AIPを利用して英語版の原文から機械的に翻訳されたものです。
データソースプロジェクトがクリーンな出力を生成した後、パイプラインの次の段階であるトランスフォームプロジェクトが、オントロジー層にデータを供給するための準備を行います。これらのプロジェクトは、1つ以上のデータソースプロジェクトからクリーンデータセットをインポートし、ルックアップデータセットを使って値を拡張したり、オブジェクト中心や時間中心のデータセットを作成するために関係を正規化または非正規化したり、標準的で共有される指標を作成するためにデータを集約します。
データエンジニアリングのトレーニングのルートにおいて、これまでに単一のデータセットを出力するコードベースのデータ変換を作成してきました。Foundry トランスフォーム API は、1つの変換ファイルで複数の出力を生成する方法を少なくとも2つ提供しています。これは、入力をプログラム的に明確な部分に分割したい場合などに役立ちます。このチュートリアルでは、パイプラインをトランスフォームプロジェクト段階に進める中で、1つの変換から複数のデータセットを出力する利用可能な方法の1つを探ります。
このチュートリアルの演習では、データソースプロジェクト:フライトアラートとデータソースプロジェクト:乗客からのクリーンな出力を取得し、マルチ出力 Python トランスフォームの概念を使用してそれらをさらに処理します。まず、フライトアラートデータと乗客データを結合する中間変換を生成します。次に、乗客の国に基づいてアラートの個別のデータセットを作成するマルチ出力変換を作成します。