7. [Repositories] データ期待値の設定3 - 主キーチェックの実装

注: 以下の翻訳の正確性は検証されていません。AIPを利用して英語版の原文から機械的に翻訳されたものです。

3 - 主キーチェックの実装

📖 タスクの概要

下の画像に示すように、Data Health サービスには、信頼性のあるデータセットの重要な属性である主キーの一意性を検証するチェックが利用可能です。

前述のように、このデータヘルスチェックとデータ期待値チェックとしての実装の主な違いは、後者は変換に関連するジョブを中止することができるのに対し、前者は失敗の通知を受け取るだけです。この演習では、flight_alerts_clean 変換に主キーチェックを追加する際の基本的な期待値構文について説明します。具体的には、変換の出力にチェックを追加するため、@transform_df デコレータの Output 項目に引数として渡します。

🔨 タスクの説明

  1. @transform_df デコレータの Output 行に第 2 の引数を追加して、次のように変更します(データセット RID またはパスが最初の引数です):

    checks=Check(E.primary_key('alert_display_name'), 'Primary Key', on_error='FAIL')

    alert_display_name が出力データセットの主キー行として取得され、エラーが発生した場合にジョブが中止されることがわかります(on_error='FAIL')。エラーが発生したことを通知されるだけであれば、on_error='WARN' を選択することもできます。下の画像をクリックして、スペースや構文が正しいことを確認してください。

  2. 構文エラーがないことを確認してください。構文エラーは、Problems タブで Code Assist が通知します。コードがクリアされたら、意味のあるコミットメッセージ(例: "feature: add primary key expectation")で変更をコミットします。

  3. CI チェックが完了したら、ブランチ上でコードをビルドします。

  4. ビルドが正常に完了したら、リポジトリのBuild ヘルパーの下部にある Expectations タブをクリックします。期待値が満たされており、主キー行が一意です。 これで、データヘルスアプリケーションにもエンコードされたチェックが表示されるようになりました。

  5. ブランチ上の出力データセット flight_alerts_clean を開きます。最も簡単な方法は、変換の Output 行(@transform_df デコレータ内)にあるハイパーリンクされたデータセット名をクリックすることです。

  6. Dataset アプリケーションから、Health タブをクリックします。タブ名の横には 1 が表示されているはずです。

  7. 新しい Status チェックが Data Expectations Monitor として表示されます。チェックをクリックして開きます。

  8. これが主キーチェックであることをどのようにして知るのでしょうか?チェック構成の Outputs セクションにあるデータセット名をクリックします。次に、Primary Key 項目をクリックして詳細情報を表示します。

  9. データヘルスチェックとは異なり、このチェックには自動的に登録されません。Watch ボタンをクリックして登録してください。

  10. 画面右上の Actions ▾ ドロップダウンをクリックし、View code の直接の言葉をクリックして、ブランチ上のコードリポジトリに戻ります。

  11. PR プロセスを使用して、ブランチを Master にマージします。

  12. Master 上でコードをビルドします。

  13. yourName Flight Alerts Schedule チェックグループにチェックを追加することを検討してください。