注: 以下の翻訳の正確性は検証されていません。AIPを利用して英語版の原文から機械的に翻訳されたものです。
この内容は learn.palantir.com ↗ でもご覧いただけますが、アクセシビリティの観点から、ここに掲載しています。
以下の画像に示されているように、Data Health サービスには主キーの一意性を確認するためのチェックが用意されています。これは信頼できるデータセットの重要な属性です。
前述のように、このデータヘルスチェックとデータ期待チェックの実装の主な違いは、後者がトランスフォームに関連するジョブを中断できるのに対し、前者は失敗を通知するだけという点です。この演習では、flight_alerts_clean
トランスフォームに主キーのチェックを追加する際の基本的な期待値の構文を説明します。
具体的には、トランスフォームの出力にチェックを追加するため、@transform_df
デコレーター内の Output
アイテムの引数として渡します。
@transform_df
デコレーターの Output
行を、2 番目の引数(最初の引数はデータセット RID またはパス)で更新します:
checks=Check(E.primary_key('alert_display_name'), 'Primary Key', on_error='FAIL')
ご覧のとおり、alert_display_name
が出力データセットの主キー列として取られ、エラーが発生した場合、ジョブは中断されます (on_error='FAIL')。エラーの通知だけを希望する場合は、on_error='WARN' を選択することもできます。以下のクリック可能な画像とスペースと構文を比較してください。
Problems タブで Code Assist が注意を促す構文エラーがないことを確認します。コードがクリアされたら、「feature: add primary key expectation」などの意味のあるコミットメッセージで変更をコミットします。
CI チェックが合格したら、ブランチでコードをビルドします。
ビルドが正常に完了したら、画面下部のリポジトリの Build ヘルパーの Expectations タブをクリックします。期待値が満たされ、主キー列が一意であることを確認します。 これらのエンコードされたチェックが Data Health アプリケーションにも表示されることを確認しましょう。
ブランチの出力データセット — flight_alerts_clean
— を開きます。ブランチの出力データセットに移動する最も簡単な方法は、トランスフォームの Output
行(@transform_df
デコレーター内)にあるハイパーリンクされたデータセット名をクリックすることです。
Dataset アプリケーションから Health タブをクリックします。タブ名の横に 1
が表示されているはずです。
Data Expectations Monitor とラベル付けされた新しい Status チェックがあります。このチェックをクリックして開きます。
これが主キーのチェックであることをどうやって確認するのか? チェック構成の Outputs セクションでデータセットの名前をクリックします。次に Primary Key アイテムをクリックして詳細を確認します。
ユーザーが構成する Data Health チェックとは異なり、このチェックには自動的にサブスクライブされません。Watch ボタンをクリックしてサブスクライブします。
画面右上の Actions ▾ ドロップダウンをクリックし、View code の文字を直接クリックして、ブランチのコードリポジトリに戻ります。
PR プロセスを使用してブランチを Master
にマージします。
Master
でコードをビルドします。
ユーザーのName Flight Alerts Schedule チェックグループにチェックを追加することを検討します。