データ統合パイプラインのビルドスケジュール一般的なスケジューリング設定

注: 以下の翻訳の正確性は検証されていません。AIPを利用して英語版の原文から機械的に翻訳されたものです。

一般的なスケジューリング設定

以下の一般的なスケジュールの例から始めてみましょう:

定期的にデータセットを作成する

この例では、raw_taxi (cleaned) を平日の午前 9 時に更新し、raw_taxi (cleaned) だけでなく、そのすべての上流の依存関係もビルドしたいと考えています。スケジュールは以下のように設定する必要があります:

image-time-based-full-page

新しいデータが利用可能になったときにデータセットを作成する

この例では、別のデータセットが更新されたときにスケジュールを実行したいと考えています。前のセクションと同じ設定を使用できますが、一つだけ小さな修正が必要です。イベントトリガー を選択し、グラフ上のどのデータセットを更新のトリガーとするかを選択します。

when-datasets-update

イベントベースのスケジュールの詳細については、イベントトリガー のドキュメンテーションを参照してください。

高度な(複数)トリガー設定

image-of-any-trigger-config image-of-or-trigger-config

この例では、Dataset D を毎日午前 9 時に更新し、また、依存しているデータセットParent A が変更を見つけたときも更新したいと考えています。複合トリガーの組み合わせ表によれば、時間ベースのトリガーとイベントベースのトリガーを OR で組み合わせると、データセットは時間 T でビルドされ、さらにイベント E が発生したときもビルドされます。したがって、ビルドのスケジュールを設定したいデータセットを Dataset D に設定し、午前 9 時の時間ベースのトリガーと、Parent A の任意の更新を監視するイベントベースのトリガーを追加します。"これらのトリガーのいずれか"を選択するか、高度な設定を追加して条件間に OR を追加することは、このケースでは同等です。

親が更新された場合に限り、特定の時間にデータセットを更新する

image-of-all-trigger-config image-of-and-trigger-config

この例では、Dataset D を毎日午前 9 時に更新したいですが、依存しているデータセットParent A が変更を見つけた場合に限ります。複合トリガーの組み合わせ表によれば、時間ベースのトリガーとイベントベースのトリガーを AND で組み合わせると、データセットは時間 T でビルドされますが、それはイベント E が事前に発生した場合に限ります。したがって、ビルドのスケジュールを設定したいデータセットを Dataset D に設定し、午前 9 時の時間ベースのトリガーと、Parent A の任意の更新を監視するイベントベースのトリガーを追加します。"これらすべてのトリガー"を選択するか、高度な設定を追加して条件間に AND を追加することは、このケースでは同等です。

この設定では、Parent A が更新された時間枠に制限はありません。同日の午前 8:55 に更新されたか、前日の午前 9:10 に更新されたかに関係なく、イベントベースのトリガーは午前 9 時に TRUE と評価され、すべての基準が満たされてスケジュールが実行されます。これは、Parent A が毎日午前 9 時に一貫して更新されている場合、例えば毎日午前 9:10 に更新されている場合、Dataset D は毎日午前 9 時にビルドされ、Parent A のデータは 23 時間 50 分前のものになります。