6. データパイプラインの健全性の監視8 - 演習のまとめ

注: 以下の翻訳の正確性は検証されていません。AIPを利用して英語版の原文から機械的に翻訳されたものです。

8 - 演習のまとめ

上の画像は、接続されたすべてのスケジュールのノードを Data health ノードの色分けオプションで色分けし、Data health ヘルパータブを開いた状態を示しています。これにより、グラフ上のすべてのノードのチェックステータスが表示されます。

✅ 演習での成果物

  • スケジュールの入力と出力に対する 最終更新からの経過時間 (TSLU)スキーマ チェック。

✅ 学習した内容

  1. Job は、単一の変換に記述されたロジックによって定義されるデータ計算です。スケジュールの対象は Build であり、これは一緒に信頼性を持って実行できる1つ以上のジョブの集合で、「意味」の単位となります。
  2. Palantirでは、スケジュールされたビルドの対象に対して少なくともスキーマとTSLUのチェックを行い、入力に対してスキーマのチェックを行うことを推奨しています。
  3. ジョブトラッカーアプリケーションを使って、Foundryのビルドをモニタリングし、デバッグすることができます。
  4. 複数のData Lineageノードを選択し、右クリックして 健康チェックを追加... を選択することで、一部のチェックを複数のデータセットに同時に適用することができます。

📚 推薦文献(約3分読み)

スケジュールの入力と出力に推奨されるチェックを適用する練習をしてきました。次に、このドキュメンテーションページを見直すことで、他のオプショナルなチェックを導入することができ、健康チェックのベストプラクティスについて理解を深めることができます。