Warning

注: 以下の翻訳の正確性は検証されていません。AIPを利用して英語版の原文から機械的に翻訳されたものです。

7 - パイプライン全体にスキーマとTSLUチェックをインストールする

この内容は learn.palantir.com ↗でもご覧いただけますが、アクセシビリティの観点から、ここに掲載しています。

📖 タスクの概要

パイプラインのすべての入力にスキーマチェックをインストールすること、および(更新頻度が予想できる場合)TSLUチェックを行うことを推奨します。ビルドスケジュールのすべての出力(つまり、ターゲット)には、少なくともTSLUとスキーマチェックを含めるべきです。

進行するにあたり、それぞれが独自のスケジュールを設定した3つのビルドユニットが連携していることを思い出してください:

  • ユーザーの名前 Flight Alerts ScheduleDatasource Project: Flight Alerts プロジェクトのジョブのビルドスケジュール。
  • ユーザーの名前 Passengers ScheduleDatasource Project: Passengers プロジェクトのジョブのビルドスケジュール。
  • ユーザーの名前 Alert Metrics ScheduleTransform Project: Alert Metrics プロジェクトのジョブのビルドスケジュール。

🔨 タスクの説明

  1. Flight Alerts Pipeline の Data Lineage グラフに戻り、flight_alerts_clean から生成されたマルチ出力変換まで、すべての下流ノードを含めて展開します("Builder" パスを進んでいる場合、フィルター処理された国と優先度データセットを意味します)。すべての上流のノードも追加することを忘れないでください。
  2. すべてのスケジュールターゲットに TSLU とスキーマチェックを追加し、それぞれを対応するチェックグループに追加します。
  3. すべてのスケジュール入力にスキーマチェックを追加し、それぞれを対応するチェックグループに追加します。ユーザーの Passengers スケジュールへの*_json_raw および*_csv_raw 入力データセットは、変換の性質上、特定のスキーマを期待していないことに注意してください。代わりに、それぞれの前処理済みステージでスキーマチェックを行うことを検討してみてください。

"Builder" パスを進んでいる場合、前処理済みの Passenger データセットがないかもしれませんので、このステップはスキップしても安全です。

ヒント

  • サイドパネルの各スケジュールにマウスを置くと、各スケジュールの入力とターゲットのノードが何であるかを視覚的に思い出すことができます。
  • shift + ドラッグを使用して Data Lineage グラフ上で複数のノードを選択し、右クリックして Add health check... を選択することで、複数のノードに一度にチェックを適用できます。
  • データセットが1つのビルドスケジュールのターゲットであり、別のビルドスケジュールへの入力である場合、スキーマチェックや TSLU チェックを2回適用する必要(または能力!)はありません。
  • 各チェックを対応するチェックグループに追加します。