Warning

注: 以下の翻訳の正確性は検証されていません。AIPを利用して英語版の原文から機械的に翻訳されたものです。

3 - スケジュールがビルドする内容の定義

この内容は learn.palantir.com ↗ でも以下の内容をご覧いただけますが、アクセシビリティの観点から、ここに掲載しています。

📖 タスクの概要

スケジュールターゲットは、特定のスケジュールの終端点を表し、Data Lineage アプリケーションの右上に設定されたブランチ上に構築されます。

🔨 タスクの説明

  1. Data Lineage グラフ上の flight_alerts_clean データセットノートをクリックし、利用可能なオプションを確認します。Connecting Buildでは、UI が "WHAT" オプションを3つと "WHEN" オプションを1つ(そして任意の指定を削除するための Clear ボタン)を提示します。

    • Input: これらのデータセットはビルドされず、パイプラインの次のステップへの入力として使用されます。Connecting Build は入力とトリガーの間のすべてのデータセットをビルドしますが、入力を除き、ターゲットを含むことを覚えておいてください。
    • Target: スケジュールでビルドされる最終的なデータセット。
    • Excluded: 入力とターゲットの間にあるデータセットのうち、ユーザーのパイプラインの一部として実行したくないものにこのオプションを使用します。
    • Trigger: 次のタスクで説明するように、データセットをトリガーとして指定すると、それがユーザーのパイプラインを実行する条件となります。
  2. Target を選択します。flight_alerts_clean データセットが現在、スケジューラウィンドウの Target datasets セクションに表示されます。

  3. Shift キーを押しながら raw/flight_alerts_rawpriority_mapping_raw、および status_mapping_raw を選択し、それらを Inputs として選択します。これは、スケジュールがトリガーしたときにそれらがビルドされないことを意味しますが、それらは下流のビルドの入力として使用されます。

    • 選択した3つのデータセットが現在、スケジューラパネルの Input dataset セクションに表示され、前処理されたデータセットノードは青色になります。凡例で確認できるように、スケジュールは入力とターゲットの間にあるこれらのデータセットをビルドしようとします(したがって、「接続」ビルドを作成します)。

ℹ️ なぜ(シミュレートされた)データソースを入力として選択しなかったのか? 最上流のグループ化されたデータセットは単に外部データソースをシミュレートしているだけであり、ユーザーが Inputs としてマークしたデータセットはその外部ソースからの生テーブルのコピーをシミュレートしています。ビルドの残りの部分とは別に Data Connection 同期スケジュールを設定するべきです。これについては、このチュートリアルの後半で説明する Force Build オプションを使用してください。