4. データパイプラインのスケジューリング5 - スケジュールのビルド方法の定義

注: 以下の翻訳の正確性は検証されていません。AIPを利用して英語版の原文から機械的に翻訳されたものです。

5 - スケジュールのビルド方法の定義

📖 タスクの概要

ユーザーのパイプラインのWHATとWHENを定義しましたが、このスケジュールでのビルドがどのように実行されるべきかを構成する設定がいくつかあります。

🔨 タスクの説明

  1. スケジューラパネルの Build scope セクションで、ドロップダウンを Project Scoped に設定します。これにより、スケジュールは個々のユーザーの権限ではなく、プロジェクトの権限にスコープされたトークンで実行できるようになります。

  2. スケジューラパネルの下部にある折りたたまれた ▸ Advanced options セクションを開きます。

  3. Abort build on failure のオプションを選択します。ユーザーのパイプラインの一部が更新され、他の部分が失敗することは望ましくないため、全体のスケジュールを一つの失敗で停止させることで、パイプライン内の偏りを防ぐことができます。

  4. Customize the number of attempts for failed jobs のオプションを設定します。リトライの回数を3回、リトライ間の時間を1分に設定します。この設定により、一時的にビルドが中断された可能性のある一時的なネットワーク問題やその他の「不安定さ」を克服することができます。

    ℹ️ Advanced settingsForce build オプションは、Data Connection の取り込みにのみ使用すべきです。それ以外の場合、ビルドが必要ないデータセットをビルドする可能性があり、それによりSpark計算リソースが無駄になる可能性があります。

  5. スケジュールパネルの右下にある青い Save ボタンをクリックして、スケジュールを保存します。

📚 推薦文献(約7分読み)

この演習では、基本的なスケジュール設定の一部に触れました。このリンクからFoundryのドキュメンテーションページにアクセスし、パイプラインのスケジューリングに関するベストプラクティスを確認してください。データエンジニアは、データパイプラインを確立または改善する際に、このページをブックマークすることを検討してください。