2. [Builder] データ変換入門3 - データソースのシミュレート

注: 以下の翻訳の正確性は検証されていません。AIPを利用して英語版の原文から機械的に翻訳されたものです。

3 - データソースのシミュレート

📖 タスクの概要

プロジェクトの各段階では、Pipeline Builder でデータ変換を構造化された環境で開発・維持するために、複数のバッチパイプラインが必要になることがあります。このチュートリアルでは、実際に外部ソースに接続しないため、データソースプロジェクトに3つの生データファイルのコピーを作成することでシミュレートします。

🔨 タスクの説明

  1. 前のチュートリアルで作成した データソースプロジェクトのフォルダーに進んでください。例: .../Temporary Training Artifacts/${yourName}/Data Engineering Tutorials/Datasource Project: Flight Alerts/

  2. その場所に /data または /datasets/ フォルダーがまだない場合は、どちらかの名前で作成してください。

    • /datasets フォルダー内に、以下のサブフォルダーを作成してください:
    • /raw
    • /clean
    • /preprocessed
  3. /raw フォルダーを選択します。

  4. 画面右上の緑色の ➕ New ▾ ボタンをクリックし、アーティファクトのドロップダウンリストから Pipeline を選択して新しいパイプラインを作成します。

  5. バッチパイプラインを作成し、flight_alerts_datasource と名付けます。

  6. Add datasets ボタンを使用して、以下のデータセットを追加します。それぞれ /Foundry Training and Resources/Example Projects/[Datasource] Flight Alerts/datasets/raw/ にあります。

    • flight_alerts_raw
    • status_mapping_raw
    • priority_mapping_raw
  7. パイプラインに3つの出力を作成し、それぞれ上記のステップ6でインポートしたデータセットに対応させます。入力スキーマをそのまま使用してください。

  8. 凡例から「カラーノード」オプションを使用して、入力データセットと出力データセットにそれぞれ異なる色を付け、それに応じてラベルを付けることを検討してください。以下のクリック可能な画像を参考にしてください。

  9. パイプラインを Save して Deploy し、出力データセットを構築します。

📖 タスクの概要

プロジェクトの各段階では、Pipeline Builder でデータ変換を構造化された環境で開発・維持するために、複数のバッチパイプラインが必要になることがあります。このチュートリアルでは、実際に外部ソースに接続しないため、データソースプロジェクトに3つの生データファイルのコピーを作成することでシミュレートします。

🔨 タスクの説明

  1. 前のチュートリアルで作成した データソースプロジェクトのフォルダーに進んでください。例: .../Temporary Training Artifacts/${yourName}/Data Engineering Tutorials/Datasource Project: Flight Alerts/

  2. その場所に /data または /datasets/ フォルダーがまだない場合は、どちらかの名前で作成してください。

    • /datasets フォルダー内に、以下のサブフォルダーを作成してください:
    • /raw
    • /clean
    • /preprocessed
  3. /raw フォルダーを選択します。

  4. 画面右上の ➕ New ▾ を選択し、アーティファクトのドロップダウンメニューから Pipeline を選択して新しいパイプラインを作成します。

  5. バッチパイプラインを作成し、flight_alerts_datasource と名付けます。

  6. Add datasets ボタンを使用して、以下のデータセットを追加します。それぞれ /Foundry Training and Resources/Example Projects/[Datasource] Flight Alerts/datasets/raw/ にあります。

    • flight_alerts_raw
    • status_mapping_raw
    • priority_mapping_raw
  7. パイプラインに3つの出力を作成し、それぞれ上記のステップ6でインポートしたデータセットに対応させます。入力スキーマをそのまま使用してください。

  8. 凡例から「カラーノード」オプションを使用して、入力データセットと出力データセットにそれぞれ異なる色を付け、それに応じてラベルを付けることを検討してください。以下のクリック可能な画像を参考にしてください。

  9. パイプラインを Save して Deploy し、出力データセットを構築します。