注: 以下の翻訳の正確性は検証されていません。AIPを利用して英語版の原文から機械的に翻訳されたものです。

7 - パイプライン全体にスキーマとTSLUチェックをインストールする

📖 タスクの概要

ユーザーのパイプラインのすべての入力にスキーマチェックをインストールすること、そしてオプションで(更新頻度を知っている場合)TSLUチェックをインストールすることを推奨します。ユーザーのビルドスケジュールのすべての出力(つまり、ターゲット)には、少なくとも TSLUとスキーマチェックを含めるべきです。

進めるにあたり、それぞれが独自のスケジュールを設定した3つのビルドユニットが連携していることを思い出してください:

  • ユーザー名 Flight Alerts ScheduleDatasource Project: Flight Alerts プロジェクトのジョブのビルドスケジュール。
  • ユーザー名 Passengers ScheduleDatasource Project: Passengers プロジェクトのジョブのビルドスケジュール。
  • ユーザー名 Alert Metrics ScheduleTransform Project: Alert Metrics プロジェクトのジョブのビルドスケジュール。

🔨 タスクの説明

  1. ユーザーの Flight Alerts Pipeline データフローグラフに戻り、flight_alerts_cleanから始まる全ての下流ノードを含めて展開します。これには、生成されたマルチ出力変換("Builder" パスをたどっている場合、これはフィルター処理した国と優先度のデータセットを指します)まで全て含まれます。全ての 流ノードも追加することを忘れないでください。
  2. 全てのスケジュールターゲットにTSLUとスキーマチェックを追加し、それぞれを対応するチェックグループに追加します。
  3. 全てのスケジュール入力にスキーマチェックを追加し、それぞれを対応するチェックグループに追加します。ユーザーの Passengers スケジュールへの *_json_raw*_csv_raw 入力データセットは、変換の性質上特定のスキーマを期待していません。代わりに、それぞれの前処理段階でスキーマチェックを配置することを考慮してください。

"Builder" パスをたどっている場合、前処理済みの Passenger データセットがない場合があり、このステップをスキップしても問題ありません。

ヒント

  • サイドパネルの各スケジュールにマウスを重ねると、どのノードが各スケジュールの入力とターゲットであるかを視覚的に思い出すことができます。
  • shift + drag を使ってデータフローグラフ上の複数のノードを選択し、右クリックして Add health check... を選択することで、複数のノードに一度にチェックを適用できます。
  • データセットが一つのビルドスケジュールのターゲットであり、別のものの入力である場合、スキーマチェックやTSLUチェックを二度適用する必要(または可能性!)はありません。
  • それぞれを対応するチェックグループに追加します。