4. データパイプラインのスケジューリング4 - スケジュールのビルドタイミングの定義

注: 以下の翻訳の正確性は検証されていません。AIPを利用して英語版の原文から機械的に翻訳されたものです。

4 - スケジュールのビルドタイミングの定義

📖 タスクの概要

スケジュールされたビルドは、トリガーによって定義された条件が満たされたときに実行されます。トリガーはイベントベース(例:データセットa、b、cが正常に更新されたときに実行)、時間ベース(例:2日ごとに03:00に実行)、またはこれらの組み合わせであることができます。 このタスクでは、パイプラインスケジュールを開始するための多次元イベントトリガーを定義します。

📚 推薦文献(約5分読み)

次に進む前に、スケジューラのドキュメンテーションに移動してトリガーについて詳しく読んでください。このチュートリアルでは単純なトリガー設定を実装しますが、データエンジニアは利用可能な複雑さを理解しておく必要があります。

🔨 タスクの説明

  1. shift を押しながら raw/flight_alert_rawpriority_mapping_rawstatus_mapping_raw ノードを選択し、それらを トリガー として定義します。これにより、データセットがスケジューラパネルの ビルドタイミング セクションに表示されます。

    しかし、より複雑なトリガーを有効にしたい場合があります:raw/flight_alert_raw データセットの変換 コード が更新されたとき、または status_mapping_rawpriority_mapping_raw正常に実行された ときにパイプラインを更新します。

  2. スケジューラパネルの ビルドタイミング セクションで、複数の時間またはイベント条件が満たされたとき のラジオボタンをクリックします。これにより、選択したトリガーがライトブルーの "ピル" として表示されるテキストエリアが開きます。

  3. テキストエリア内の Data updated for flight_alerts_raw アイテムをクリックしてトリガー定義ウィンドウを開きます。デフォルトでは、データセットをトリガーとして設定すると、トリガーデータセットに新しいトランザクション(例: "更新されたデータ")があったときにスケジュールが開始されます。トリガーがデータセットを計算するロジックが更新されたときに発火するように変更しましょう。下の画像のように、トリガーロジックを Data updated ▾ から New logic ▾ に変更します。その後、適用 をクリックします。

  4. トリガー条件のテキストエリアで、右側の All(AND) ▾ ドロップダウンメニューをクリックし、詳細設定 を選択します。

  5. 以下の設定を達成するために必要なブール条件と括弧を手動で追加します:

    ( New logic for flight_alerts_raw ) OR (
    Data updated for status_mapping_raw AND
    Data updated for priority_mapping_raw )
    

ℹ️ データパイプラインでは、イベントベースのトリガーの使用が最適です。データ接続の同期、書き戻しデータセット、ニッチなユースケースのために時間トリガーのスケジュールを使用します。