Warning

注: 以下の翻訳の正確性は検証されていません。AIPを利用して英語版の原文から機械的に翻訳されたものです。

5 - Data Health アプリケーションから時系列チェックを追加する

learn.palantir.com でも以下の内容をご覧いただけますが、アクセシビリティの観点から、ここに掲載しています。

📖 タスクの概要

データのタイムリーさは、パイプラインのメンテナとデータ消費者の両方にとって主要な懸念事項です。前回更新からの経過時間(TSLU)チェックは、パイプラインが必要なキャデンスで更新されていることを確認するのに役立ちます。多様性のために、このタスクでは Data Health アプリケーションを使用して、前のタスクで Data Lineage に行ったのと同様に、Flight Alerts スケジュールビルドの出力に TSLU チェックをインストールする方法を説明します。どちらの方法でも、ヘルスチェックを追加することができます。

🔨 タスクの説明

  1. データフローグラフで、flight_alerts_clean ノードを右クリックし、フライアウトメニューで Open の文字( ではなく)をクリックして、データセットアプリケーションでデータセットを開きます。
  2. Dataset アプリの左上部にある Health メニューアイテムに、1 が表示されていることに注意してください。そのメニューアイテムをクリックして、Dataset アプリ内に Data Health アプリのタブを開きます。
  3. 画面下部の Add checks セクションから、Time ▾ ドロップダウンを選択し、Time since last updated を選択します。
    • Flight Alerts スケジュールのロジックを思い出してください。これは、生の入力トリガが新しいデータを受け取ると実行されます(つまり、flight_alerts_raw に新しいロジックがあります)。実際のソースシステムとそのスケジュールがあれば、外部ソースから新しいデータがどのくらいの頻度で流れ込むかについてより明確なアイデアが得られます。そうでなければ、中央値からのTSLUの偏差に基づいて変動する期待値を設定しましょう。
  4. 2つ目のチェックボックスにチェックを入れ、値を中央値から 1 の偏差に設定します(最後の10回のチェック結果に基づいて中央値を計算します)。
  5. Add check group リンクを選択し、Flight Alerts スケジュールグループを選択します。
  6. ノートに「ソーステーブルの更新間隔がわかったら見直しを検討する」と追記します。
  7. ヘルスチェックを保存します。

📚 推薦文献(約5分)

デフォルトでは、チェック作成者はチェックの失敗時にアラートを受信し、設定されたプリファレンスに応じてメールやインアプリ通知を受け取ります。このドキュメント エントリで、これらの設定について詳しく説明しています。また、このページ を読んで、チェックを「監視」する際のニュアンスをさらに理解してください。さらに、時系列チェックに関する このドキュメントページ も読んでください。

以下の画像では、各チェックを個別に一時停止、スヌーズ、編集、または削除する機能が表示されています。