注: 以下の翻訳の正確性は検証されていません。AIPを利用して英語版の原文から機械的に翻訳されたものです。
learn.palantir.com でも以下の内容をご覧いただけますが、アクセシビリティの観点から、ここに掲載しています。
データソースプロジェクトが一連のクリーンな出力を生成した後、パイプラインの次のステージであるトランスフォームプロジェクトは、データをオントロジーレイヤーに投入するための準備を行います。これらのプロジェクトは、1つまたは複数のデータソースプロジェクトからクリーニングされたデータセットをインポートし、それらをルックアップデータセットと結合して値を拡張したり、オブジェクト中心または時間中心のデータセットを作成するために関係を正規化または非正規化したり、標準的で共有のメトリクスを作成するためにデータを集約します。
データエンジニアリングのトレーニングのルートでは、これまでに単一のデータセットを出力するコードベースのデータ変換を作成しました。Foundry の変換APIは、単一の変換ファイルで複数の出力を生成するための少なくとも2つの方法を提供しています。これは、入力をプログラム的に区別する部分に分けたい場合に役立ちます。このチュートリアルでは、単一の変換から複数のデータセットを出力するための利用可能な方法の1つを探索し、パイプラインをトランスフォームプロジェクトフェーズに移行します。
このチュートリアルの演習では、ユーザーのデータソースプロジェクト:フライトアラートとデータソースプロジェクト:乗客からのクリーンな出力をさらに処理し、マルチ出力Pythonトランスフォームの概念を使用します。まず、フライトアラートのデータと乗客データを結合する中間変換を生成します。次に、乗客の国に基づいてアラートの個別のデータセットを作成するマルチ出力変換を作成します。