5C. [Repositories] Multiple Outputs with Data Transforms1 - このコースについて
Warning

注: 以下の翻訳の正確性は検証されていません。AIPを利用して英語版の原文から機械的に翻訳されたものです。

1 - このコースについて

learn.palantir.com でも以下の内容をご覧いただけますが、アクセシビリティの観点から、ここに掲載しています。

データソースプロジェクトが一連のクリーンな出力を生成した後、パイプラインの次のステージであるトランスフォームプロジェクトは、データをオントロジーレイヤーに投入するための準備を行います。これらのプロジェクトは、1つまたは複数のデータソースプロジェクトからクリーニングされたデータセットをインポートし、それらをルックアップデータセットと結合して値を拡張したり、オブジェクト中心または時間中心のデータセットを作成するために関係を正規化または非正規化したり、標準的で共有のメトリクスを作成するためにデータを集約します。

データエンジニアリングのトレーニングのルートでは、これまでに単一のデータセットを出力するコードベースのデータ変換を作成しました。Foundry の変換APIは、単一の変換ファイルで複数の出力を生成するための少なくとも2つの方法を提供しています。これは、入力をプログラム的に区別する部分に分けたい場合に役立ちます。このチュートリアルでは、単一の変換から複数のデータセットを出力するための利用可能な方法の1つを探索し、パイプラインをトランスフォームプロジェクトフェーズに移行します。

⚠️ コースの前提条件

  • DATAENG 05b:このトラックの前のコースをまだ完了していない場合は、今すぐ行ってください。

アウトカム

このチュートリアルの演習では、ユーザーのデータソースプロジェクト:フライトアラートデータソースプロジェクト:乗客からのクリーンな出力をさらに処理し、マルチ出力Pythonトランスフォームの概念を使用します。まず、フライトアラートのデータと乗客データを結合する中間変換を生成します。次に、乗客の国に基づいてアラートの個別のデータセットを作成するマルチ出力変換を作成します。

🥅 学習の目的

  1. 本番パイプラインのトランスフォームプロジェクトフェーズに慣れる。
  2. 単一の変換ファイルから複数のデータセット出力を生成できるマルチ出力生成された変換の違いを理解する。

💪 Foundry のスキル

  • 本番データパイプラインのトランスフォームプロジェクト部分を作成、スケジュール、文書化する。
  • 生成されたマルチ出力 Pythonトランスフォームを書く。