注: 以下の翻訳の正確性は検証されていません。AIPを利用して英語版の原文から機械的に翻訳されたものです。

5 - データヘルスアプリケーションから時刻ベースのチェックを追加する

📖 タスクの概要

データのタイムリーさは、パイプラインのメンテナとデータ消費者の両方にとって主要な関心事です。Time Since Last Updated (TSLU) チェックは、パイプラインが必要な間隔で更新されることを確認するのに役立ちます。バラエティのために、このタスクでは、前のタスクで Data Lineage で行ったように、Data Health アプリケーションを使用して、Flight Alerts スケジュールビルドの出力に TSLU チェックをインストールする方法を説明します。どちらの方法でも、ヘルスチェックを追加することができます。

🔨 タスクの説明

  1. Data Lineage グラフで、flight_alerts_clean ノードを右クリックし、フライアウトメニューで単語 Open ではなく)をクリックして、データセットを Dataset アプリケーションで開きます。
  2. Dataset アプリの左上にある Health メニューアイテムに注目し、隣の 1 をクリックして、Data Health アプリを Dataset アプリ内のタブとして開きます。
  3. 画面下部の Add checks セクションから、Time ▾ ドロップダウンを選択し、Time since last updated を選択します。
    • Flight Alerts スケジュールのロジックを思い出してください。これは、生の入力トリガーが新しいデータを受信すると実行されます(または、flight_alerts_raw に新しいロジックがある場合)。実際のソースシステムが独自のスケジュールを持っていれば、外部ソースから新しいデータがどの程度の頻度で流れ込むかについてもっとよくわかるでしょう。それがないので、中央値の TSLU からの偏差に基づいて可変の期待値を設定しましょう。
  4. 2番目のチェックボックスにチェックを入れ、値を中央値(最後の10回のチェック結果に基づいて計算された)の 1 偏差に設定します。
  5. Add check group リンクを選択し、Flight Alerts スケジュールグループを選択します。
  6. メモに「ソーステーブルの更新頻度がわかったら見直してください」と追記します。
  7. ヘルスチェックを保存します。

📚 推薦文献(約5分で読めます)

デフォルトでは、チェックの作成者は自動的にチェックの失敗に対するアラートに登録され、設定されたプリファレンスに応じて、メールやアプリ内通知を受け取ります。このドキュメント のエントリで、これらの設定について詳しく学ぶことができます。また、このページ を読むことで、チェックを「監視」するというニュアンスをさらに理解できます。さらに、このドキュメントページ で時刻ベースのチェックについても学びましょう。

下の画像には、各チェックを個別に一時停止、スヌーズ、編集、または削除する機能が表示されています。