7. [Repositories] Configuring Data Expectations3 - 主キーチェックの実装

注: 以下の翻訳の正確性は検証されていません。AIPを利用して英語版の原文から機械的に翻訳されたものです。

3 - 主キーのチェックを実装する

この内容は learn.palantir.com ↗ でもご覧いただけますが、アクセシビリティの観点から、ここに掲載しています。

📖 タスクの概要

以下の画像に示されているように、Data Health サービスには主キーの一意性を確認するためのチェックが用意されています。これは信頼できるデータセットの重要な属性です。

前述のように、このデータヘルスチェックとデータ期待チェックの実装の主な違いは、後者がトランスフォームに関連するジョブを中断できるのに対し、前者は失敗を通知するだけという点です。この演習では、flight_alerts_clean トランスフォームに主キーのチェックを追加する際の基本的な期待値の構文を説明します。 具体的には、トランスフォームの出力にチェックを追加するため、@transform_df デコレーター内の Output アイテムの引数として渡します。

🔨 タスクの説明

  1. @transform_df デコレーターの Output 行を、2 番目の引数(最初の引数はデータセット RID またはパス)で更新します:

    checks=Check(E.primary_key('alert_display_name'), 'Primary Key', on_error='FAIL')

    ご覧のとおり、alert_display_name が出力データセットの主キー列として取られ、エラーが発生した場合、ジョブは中断されます (on_error='FAIL')。エラーの通知だけを希望する場合は、on_error='WARN' を選択することもできます。以下のクリック可能な画像とスペースと構文を比較してください。

  2. Problems タブで Code Assist が注意を促す構文エラーがないことを確認します。コードがクリアされたら、「feature: add primary key expectation」などの意味のあるコミットメッセージで変更をコミットします。

  3. CI チェックが合格したら、ブランチでコードをビルドします。

  4. ビルドが正常に完了したら、画面下部のリポジトリの Build ヘルパーの Expectations タブをクリックします。期待値が満たされ、主キー列が一意であることを確認します。 これらのエンコードされたチェックが Data Health アプリケーションにも表示されることを確認しましょう。

  5. ブランチの出力データセット — flight_alerts_clean — を開きます。ブランチの出力データセットに移動する最も簡単な方法は、トランスフォームの Output 行(@transform_df デコレーター内)にあるハイパーリンクされたデータセット名をクリックすることです。

  6. Dataset アプリケーションから Health タブをクリックします。タブ名の横に 1 が表示されているはずです。

  7. Data Expectations Monitor とラベル付けされた新しい Status チェックがあります。このチェックをクリックして開きます。

  8. これが主キーのチェックであることをどうやって確認するのか? チェック構成の Outputs セクションでデータセットの名前をクリックします。次に Primary Key アイテムをクリックして詳細を確認します。

  9. ユーザーが構成する Data Health チェックとは異なり、このチェックには自動的にサブスクライブされません。Watch ボタンをクリックしてサブスクライブします。

  10. 画面右上の Actions ▾ ドロップダウンをクリックし、View code の文字を直接クリックして、ブランチのコードリポジトリに戻ります。

  11. PR プロセスを使用してブランチを Master にマージします。

  12. Master でコードをビルドします。

  13. ユーザーのName Flight Alerts Schedule チェックグループにチェックを追加することを検討します。