5C. [Repositories] Multiple Outputs with Data Transforms9 - 接続ビルドスケジュールの設定

注: 以下の翻訳の正確性は検証されていません。AIPを利用して英語版の原文から機械的に翻訳されたものです。

9 - 接続ビルドスケジュールを設定する

learn.palantir.com でも以下の内容をご覧いただけますが、アクセシビリティの観点から、ここに掲載しています。

📖 タスクの概要

データセットは単一のスケジュールにのみ属するべきです。

データソースとパイプラインのトランスフォームステージを接続するときに、データセットを不必要にビルドすることを避けるようにしましょう。2 つのデータソースプロジェクトからの 3 つのクリーン出力は、トランスフォームステージパイプラインへの入力として機能しますが、以前に設定したスケジュールのターゲットであるため、新しいスケジュールで再度ビルドする必要はありません。代わりに、接続ビルドスケジュールの入力として機能します。接続ビルドのロジックを思い出してください。これは、入力を除外し、ターゲットを含めて、入力とターゲットの間のすべてをビルドしようとします。

🔨 タスクの説明

  1. 前のタスクで保存した Data Lineage グラフを開きます。必要に応じて Flow アニメーションをオフにします。

  2. 画面右側の Manage schedules ボタンをクリックします。

  3. 他の 2 つのスケジュールが Scheduler UI に表示されます。交互にマウスオーバーして、グラフ上の「クリーン」データセットが既にスケジュールのターゲットであることを確認します。

  4. 新しいスケジュールを作成し、ユーザーのName Alert Metrics Schedule(たとえば、Jmeier Alert Metrics Schedule)と名付けます。説明を追加します: Build schedule for Transform Project: Alert Metrics

  5. 接続ビルドに切り替え、「何を」「いつ」ビルドするかを定義します。

    • 生成されたすべてのデータセットとマルチアウトプットデータセットをスケジュールのターゲットとして設定します。
    • 3 つの「クリーン」データセットを入力トリガーとして設定します(つまり、これらを入力として設定し、さらにトリガーとして設定します。後者はパイプラインがビルドされる「時」を定義します)。
  6. Build scopeProject Scoped に変更します。

  7. Advanced options を開いて、失敗時に中止するように設定し、再試行を 1 分間隔で 3 回行うように設定します。

  8. スケジュールを保存します。