Warning

注: 以下の翻訳の正確性は検証されていません。AIPを利用して英語版の原文から機械的に翻訳されたものです。

4 - データフローアプリケーションからスキーマチェックを追加する

この内容は learn.palantir.com ↗ でもご覧いただけますが、アクセシビリティの観点から、ここに掲載しています。

📖 タスクの概要

これまでの7つのチュートリアルで、入出力の関係を通じて連結された一連のパイプラインを構築しました。まず、Datasource Project: Flight Alerts パイプラインに焦点を当て、ユーザーのスケジュール入力と出力のスキーマを評価する重要なヘルスチェックを適用します。

多くの場合、スケジュールターゲットは他のデータ変換、Contour解析、オントロジーオブジェクトへの入力として使用され、それぞれが特定のスキーマを期待しています。したがって、ユーザーのスケジュールされたビルドの入力とターゲットに スキーマチェック を実装することをお勧めします。これにより、潜在的に混乱を招く可能性のあるスキーマの変更について通知を受けることができます。

🔨 タスクの説明

  1. ユーザーのDatasource Project: Flight Alertsプロジェクトフォルダー内のFlight Alerts Pipelineを開きます。
  2. データフローアプリケーション画面の右側にあるスケジュールを管理するアイコンをクリックし、このパイプラインの保存されたスケジュール、すなわちユーザー名 Flight Alerts Scheduleをクリックします。
    • グラフは、flight_alerts_cleanがユーザーのスケジュールビルドのターゲットであり、入力トリガーとしてマークされた3つのデータセットが入力であることを示しています。パイプラインを監視するとき、ユーザーはビルドの入力ターゲット、およびスケジュール自体に対してヘルスチェックを設定します。
  3. flight_alerts_cleanを右クリックし、オプションメニューから**ヘルスチェックを追加...**を選択します。これにより、データフロー内で直接ヘルスチェックセレクターが開き、選択した1つ以上のデータセットにすばやくチェックを追加する便利な方法が提供されます。
  4. チェックのリストを最下部までスクロールし、スキーマカテゴリーからスキーマを選択します。これにより、スキーマヘルスチェック設定ウィンドウが開きます。
  5. 重要度を編集リンクを見つけてクリックし、重要度を重大に変更します。すべてのスキーマ変更が「重大」である必要はありませんが、このケースでは、このデータセットへの下流依存があり、変更があると失敗します。
  6. 現在のチェック比較許容値は、EXACT_MATCH_ORDERED_COLUMNSで、行数、順序、型が変更されない場合にのみパスします。行の順序や付加的な変更(すなわち、行の削除や既存の行のデータ型の変更はない)についてはあまり関心がないと仮定します。 比較許容値をCOLUMN_ADDITIONS_ALLOWEDに変更します。これにより、既存の行名と型(しかし順序ではない)は必要に応じて追加の行を許可します。
  7. チェックグループを追加リンクをクリックし、ユーザーのFlight Alerts Scheduleグループを選択します。
  8. チェックにメモを追加します:“Dataset used as input to Transform Project: Alert Metrics.”
  9. ユーザーのチェックを保存します。