注: 以下の翻訳の正確性は検証されていません。AIPを利用して英語版の原文から機械的に翻訳されたものです。
下の画像に示すように、Data Health サービスには、信頼性のあるデータセットの重要な属性である主キーの一意性を検証するチェックが利用可能です。
前述のように、このデータヘルスチェックとデータ期待値チェックとしての実装の主な違いは、後者は変換に関連するジョブを中止することができるのに対し、前者は失敗の通知を受け取るだけです。この演習では、flight_alerts_clean
変換に主キーチェックを追加する際の基本的な期待値構文について説明します。具体的には、変換の出力にチェックを追加するため、@transform_df
デコレータの Output
項目に引数として渡します。
@transform_df
デコレータの Output
行に第 2 の引数を追加して、次のように変更します(データセット RID またはパスが最初の引数です):
checks=Check(E.primary_key('alert_display_name'), 'Primary Key', on_error='FAIL')
alert_display_name
が出力データセットの主キー行として取得され、エラーが発生した場合にジョブが中止されることがわかります(on_error='FAIL')。エラーが発生したことを通知されるだけであれば、on_error='WARN' を選択することもできます。下の画像をクリックして、スペースや構文が正しいことを確認してください。
構文エラーがないことを確認してください。構文エラーは、Problems タブで Code Assist が通知します。コードがクリアされたら、意味のあるコミットメッセージ(例: "feature: add primary key expectation")で変更をコミットします。
CI チェックが完了したら、ブランチ上でコードをビルドします。
ビルドが正常に完了したら、リポジトリのBuild ヘルパーの下部にある Expectations タブをクリックします。期待値が満たされており、主キー行が一意です。 これで、データヘルスアプリケーションにもエンコードされたチェックが表示されるようになりました。
ブランチ上の出力データセット flight_alerts_clean
を開きます。最も簡単な方法は、変換の Output
行(@transform_df
デコレータ内)にあるハイパーリンクされたデータセット名をクリックすることです。
Dataset アプリケーションから、Health タブをクリックします。タブ名の横には 1
が表示されているはずです。
新しい Status チェックが Data Expectations Monitor として表示されます。チェックをクリックして開きます。
これが主キーチェックであることをどのようにして知るのでしょうか?チェック構成の Outputs セクションにあるデータセット名をクリックします。次に、Primary Key 項目をクリックして詳細情報を表示します。
データヘルスチェックとは異なり、このチェックには自動的に登録されません。Watch ボタンをクリックして登録してください。
画面右上の Actions ▾ ドロップダウンをクリックし、View code の直接の言葉をクリックして、ブランチ上のコードリポジトリに戻ります。
PR プロセスを使用して、ブランチを Master
にマージします。
Master
上でコードをビルドします。
yourName Flight Alerts Schedule チェックグループにチェックを追加することを検討してください。