注: 以下の翻訳の正確性は検証されていません。AIPを利用して英語版の原文から機械的に翻訳されたものです。

4 - データフローアプリケーションからスキーマチェックを追加する

📖 タスクの概要

過去7回のチュートリアルを通じて、入力/出力の関係を通じて接続されたパイプラインのセットを作成しました。まず、Datasource Project: Flight Alerts パイプラインに焦点を当て、ユーザーのスケジュール入力と出力のスキーマを評価する重要なヘルスチェックを適用します。

スケジュールターゲットは、特定のスキーマを期待する他のデータ変換、Contour解析、またはオントロジーオブジェクトへの入力として使用されることがよくあります。したがって、ユーザーのスケジュールビルドの入力とターゲットに対してスキーマチェックを実装することをお勧めします。これにより、潜在的に混乱を招く可能性のあるスキーマの変更について通知を受け取ることができます。

🔨 タスクの説明

  1. ユーザーの Datasource Project: Flight Alerts プロジェクトフォルダー内の Flight Alerts Pipeline を開きます。
  2. データフローアプリケーション画面の右側にある Manage schedules アイコンをクリックし、このパイプラインの保存済みスケジュールである yourName Flight Alerts Schedule をクリックします。
    • グラフは、flight_alerts_clean がユーザーのスケジュールビルドの ターゲット であり、入力トリガーとしてマークされた3つのデータセットが 入力 であることを示しています。パイプラインを監視する際、ユーザーはビルドの 入力ターゲット 、そしてスケジュール自体に対してヘルスチェックを設定します。
  3. flight_alerts_clean を右クリックし、オプションメニューから Add health check... を選択します。これにより、データフロー内で直接、選択した1つ以上のデータセットにチェックを追加する便利な方法が開きます。
  4. チェックのリストの最下部までスクロールし、Schema カテゴリーから Schema を選択します。これにより、スキーマヘルスチェックの設定ウィンドウが開きます。
  5. Edit severity リンクを見つけてクリックし、重要度を critical に変更します。すべてのスキーマ変更が「critical」である必要はありませんが、このケースでは、このデータセットへの下流依存があり、変更があると失敗します。
  6. 現在のチェック比較許容は、EXACT_MATCH_ORDERED_COLUMNS であり、行の数、順序、タイプが変わらない場合にのみパスします。列の順序や付加的な変更(つまり、既存の列を削除したり、既存の列のデータタイプを変更したりすることはない)についてはあまり関心がないと想定します。 比較許容を COLUMN_ADDITIONS_ALLOWED に変更します。これにより、既存の行名とタイプ(ただし順序ではなく)が必要に応じて追加の行を許可します。
  7. Add check group リンクをクリックし、Flight Alerts Schedule グループを選択します。
  8. チェックにメモを追加します:「Dataset used as input to Transform Project: Alert Metrics.」
  9. チェックを保存します。