8. [Repositories] オントロジーデータパイプライン27 - 書き戻しデータセットのビルドのスケジューリング

注: 以下の翻訳の正確性は検証されていません。AIPを利用して英語版の原文から機械的に翻訳されたものです。

27 - 書き戻しデータセットのビルドのスケジューリング

📖 タスクの概要

フロントエンドのオントロジー対応アプリケーション(例えば、Workshop、Slate、Object Views、Quiverで作成したアプリケーション)で入力された編集は、オブジェクトストレージサービスに格納され、それがビルドされたときにのみ書き戻しデータセットに書き込まれます。したがって、データエンジニアとしては、ユーザーのチームと協力して、その書き戻しデータセットがどのくらいの頻度でビルドされるべきかを決定し、データを新鮮に保つための監視スケジュールを確立します。

🔨 タスクの説明

  1. ユーザーの Data Lineage グラフを /Ontology Project: Flight Alerts/documentation/ で開きます。
  2. ユーザーの2つのオブジェクトタイプノードにマウスを移動し、それぞれに新しいリンクされたデータセットを示す < をクリックします。これにより、ユーザーの書き戻しデータセットがグラフに表示されます。
  3. ユーザーの passenger_flight_alerts データセットノード上の新しいリンクノードを展開します。これにより、リンクタイプ用の書き戻しデータセットが以下の画像のようにグラフに表示されます。
    • ユーザーのユースケースでは、これらの書き戻しデータセットを1日2回ビルドすることを想定しています。これは、オントロジー対応アプリケーションを通じた編集の予想される頻度と、これらの書き戻しデータセットの下流での更新されたデータの分析目的によるものです。
  4. グラフ上のすべての3つの書き戻しデータセットをハイライトし、Data Lineage の右側のパネルの スケジュールを管理 アイコンをクリックします。
  5. 青色の 新しいスケジュールを作成 ボタンをクリックします。
  6. ユーザーのスケジュールに [yourName] Flight Alerts Writeback という名前を付け、簡単な説明を提供します:"フライトアラートのオントロジーオブジェクトとリンクタイプのスケジュール。"
    • ユーザーの書き戻しデータセットがビルドのターゲットとして設定されていることに注意してください。
  7. いつビルドするか セクションで、特定の時間に を選択します。
  8. スケジュールを設定して、毎時15分過ぎに12時間ごとに実行するようにします(例えば、ユーザーの組織全体で予想されるラッシュを避けるために、毎時の開始を避けます)。
  9. 詳細オプション セクションで、失敗時にビルドを中止 を選択し、リトライ間隔を1分に設定して2回リトライするようにジョブを設定します。
  10. それぞれの書き戻しデータセットに 最終更新からの経過時間 チェックをインストールし、それらが最後の13時間以内に更新されていることを確認します(ユーザーのスケジュールが12時間ごとに実行されるため)。
  11. チェックを対応するチェックグループに追加します。