注: 以下の翻訳の正確性は検証されていません。AIPを利用して英語版の原文から機械的に翻訳されたものです。

6 - 実践:パイプラインにデータ期待値を実装する

📖 タスクの概要

ヘルスチェックが多ければ多いほど、必ずしも健康度が高まるわけではありません。これらをパイプライン全体ではなく、重要なポイントで設定することを検討してみてください。例えば、まずは、ユーザーの(スケジュールされた)ビルドの入力と出力にチェックを設定することから始めてみてください。

データパイプラインの健康状態監視チュートリアルとこのチュートリアルで学んだことを活用して、スケジュールされたビルドの重要な入力ノードと出力ノードにデータ期待値を設定します。このプロンプトには厳密な「正解」はありません。以下にいくつかのアイデアを示します:

  • パイプラインの「生」データセットに対する主キーチェック。

  • passengers_clean データセットの flyer_status 行に対する値検証チェック。

  • flight_alert_priority_mapping_raw データセットに対する行数チェック(≤ 3)。

  • flight_alerts_platinum_${priority} データセットが platinum ステータスの乗客と ${priority} ステータスのアラートのみを含むことを確認する検証チェック(下の画像を参照)。