4. データパイプラインのスケジューリング3 - スケジュールがビルドする内容の定義

注: 以下の翻訳の正確性は検証されていません。AIPを利用して英語版の原文から機械的に翻訳されたものです。

3 - スケジュールがビルドする内容の定義

📖 タスクの概要

スケジュールターゲットは、特定のスケジュールの終端点を表し、データフローアプリケーションの右上に設定されたブランチに基づいて構築されます。

🔨 タスクの説明

  1. データフローグラフで flight_alerts_clean データセットノートをクリックし、利用可能なオプションを確認してください。Connecting Build では、UI に 3 つの "WHAT" オプションと 1 つの "WHEN"(および、指定を削除するための Clear ボタン)が表示されます。

    • Input: これらのデータセットはビルドされず、パイプラインの次のステップへの入力として使用されます。Connecting Build は、入力とトリガーの間にあるすべてのデータセットをビルドしますが、入力は除外し、ターゲットは含むことに注意してください。
    • Target: スケジュールでビルドされる最終データセットです。
    • Excluded: 入力とターゲットの間にあるデータセットで、パイプラインの一部として実行したくない場合は、このオプションを使用してください。
    • Trigger: 次のタスクで説明されていますが、データセットをトリガーとして指定すると、パイプラインの実行条件となります。
  2. Target を選択します。flight_alerts_clean データセットが、スケジューラウィンドウの Target datasets セクションに表示されるようになります。

  3. シフトキーを押しながら、raw/flight_alerts_rawpriority_mapping_raw、および status_mapping_raw を選択し、Inputs として選択します。これにより、スケジュールがトリガーされたときにビルドされず、下流のビルドへの入力として使用されます。

    • 選択した 3 つのデータセットが、スケジューラパネルの Input dataset セクションに表示され、前処理済みデータセットノードが青色になります。凡例で確認できるように、スケジュールは入力とターゲットの間にあるこれらのデータセットをビルドしようとします(そのため、「接続ビルド」が作成されます)。

ℹ️ なぜ(シミュレートされた)データソースを入力として選択しなかったのか? 最も上流のグループ化されたデータセットは、外部データソースをシミュレートしているだけであり、Inputs としてマークしたデータセットは、それらの外部ソースからの生データコピーをシミュレートしています。データ接続の同期スケジュールは、ビルドの残りの部分とは別に、Force Build オプションを使用して設定する必要があります。 このチュートリアルの後半で説明されています。