7. [Repositories] データ期待値の設定1 - このコースについて

注: 以下の翻訳の正確性は検証されていません。AIPを利用して英語版の原文から機械的に翻訳されたものです。

1 - このコースについて

データヘルスチェックは、ビルドが完了した後、チェックタイプに応じてさまざまなバックエンドプロセスを使用して実行されます。ビルドまたはジョブが完了した後、変換コードとは別に実行されるため、ビルドを失敗させるためには使用できません。つまり、プライマリキー一意性ヘルスチェック をインストールしても、失敗については通知されるだけで、望ましくないデータが下流に続く可能性があります。

対照的に、Foundry の Data Expectations ライブラリは、変換に呼び出して(a)満たされない場合にジョブが失敗するようなヘルスチェックを作成し、(b)ボックス内のデータヘルスチェックよりも詳細な粒度を提供し、(c)リポジトリ内の設定管理の対象となり、(d)データの形状とサイズに関する期待値をコードにドキュメント化する層を追加できます。したがって、エンコードされたプライマリキーのデータ期待値が失敗すると、ジョブが失敗し、予期しないデータが下流に伝播しなくなります。さらに、エンコードされた期待値は、設定した標準の期待値とともに Data Health アプリに表示されます。

⚠️ コースの前提条件

  • DATAENG 06: データパイプラインのヘルス監視: このトラックの前のコースをまだ完了していない場合は、今すぐ完了してください。

成果物

多くの場合、前のチュートリアルで適用したデータヘルスチェックは、パイプラインの監視に十分なものです。完全な監視と保護プログラムは、より高い粒度と制御のために Data Expectations フレームワークを活用すべきです。この短いチュートリアルでは、いくつかのデータ変換にエンコードされたデータチェックを追加し、Data Health アプリケーションでそれらを表示します。

📖 学習の目的

データ期待値チェックをいつどのように適用するかを理解する。

💪 Foundry のスキル

  • 既存のコードリポジトリに Data Expectations チェックを適用する。
  • Data Health アプリで期待値チェックを表示する。