2. [Builder] Introduction to Data Transformations3 - データソースのシミュレート

注: 以下の翻訳の正確性は検証されていません。AIPを利用して英語版の原文から機械的に翻訳されたものです。

3 - データソースをシミュレーションする

この内容は learn.palantir.com でもご覧いただけますが、アクセシビリティの観点から、ここに掲載しています。

📖 タスクの概要

プロジェクトの各ステージでは、Pipeline Builder を利用して複数のバッチパイプラインを構築し、データトランスフォーメーションを構築および維持する必要があります。このチュートリアルでは、外部ソースに実際には接続しないため、3 個の生ファイルのコピーを作成してデータソースプロジェクトにシミュレーションします。

🔨 タスクの説明

  1. 前のチュートリアルで作成したデータソースプロジェクトフォルダーに移動します。例: .../Temporary Training Artifacts/${yourName}/Data Engineering Tutorials/Datasource Project: Flight Alerts/

  2. その場所に /data または /datasets/ フォルダーがまだない場合は、作成します。

    • /datasets フォルダー内に次のサブフォルダーを作成します:
    • /raw
    • /clean
    • /preprocessed
  3. /raw フォルダーをクリックします。

  4. 画面右上の緑色の ➕ New ▾ ボタンをクリックし、ドロップダウンリストから Pipeline を選択して新しいパイプラインを作成します。

  5. バッチパイプラインを作成し、flight_alerts_datasource と名付けます。

  6. Add datasets ボタンを使用して、次のデータセットを追加します。それぞれ /Foundry Training and Resources/Example Projects/[Datasource] Flight Alerts/datasets/raw/ にあります。

    • flight_alerts_raw
    • status_mapping_raw
    • priority_mapping_raw
  7. 上記のステップ 6 でインポートした各データセットに対して 3 個の出力をパイプライン内に作成します。それぞれの入力スキーマをそのまま使用します。

  8. 凡例から「カラー ノード」オプションを使用して、入力データセットと出力データセットを区別して色付けし、それに応じてラベルを付けます。以下のクリック可能な画像をリファレンスとして使用します。

  9. Save して Deploy し、出力データセットをビルドします。

📖 タスクの概要

プロジェクトの各ステージでは、Pipeline Builder を利用して複数のバッチパイプラインを構築し、データトランスフォーメーションを構築および維持する必要があります。このチュートリアルでは、外部ソースに実際には接続しないため、3 個の生ファイルのコピーを作成してデータソースプロジェクトにシミュレーションします。

🔨 タスクの説明

  1. 前のチュートリアルで作成したデータソースプロジェクトフォルダーに移動します。例: .../**Temporary Training** Artifacts/${yourName}/Data Engineering Tutorials/Datasource Project: Flight Alerts/

  2. その場所に /data または /datasets/ フォルダーがまだない場合は、作成します。

    • /datasets フォルダー内に次のサブフォルダーを作成します:
    • /raw
    • /clean
    • /preprocessed
  3. /raw フォルダーを選択します。

  4. 画面右上の ➕ New ▾ を選択し、ドロップダウンメニューから Pipeline を選択して新しいパイプラインを作成します。

  5. バッチパイプラインを作成し、flight_alerts_datasource と名付けます。

  6. Add datasets ボタンを使用して、次のデータセットを追加します。それぞれ /Foundry Training and Resources/Example Projects/[Datasource] Flight Alerts/datasets/raw/ にあります。

    • flight_alerts_raw
    • status_mapping_raw
    • priority_mapping_raw
  7. 上記のステップ 6 でインポートした各データセットに対して 3 個の出力をパイプライン内に作成します。それぞれの入力スキーマをそのまま使用します。

  8. 凡例から「カラー ノード」オプションを使用して、入力データセットと出力データセットを区別して色付けし、それに応じてラベルを付けます。以下のクリック可能な画像をリファレンスとして使用します。

  9. Save して Deploy し、出力データセットをビルドします。