8. [Builder] オントロジーデータパイプライン12 - パイプラインの文書化と更新

注: 以下の翻訳の正確性は検証されていません。AIPを利用して英語版の原文から機械的に翻訳されたものです。

12 - パイプラインの文書化と更新

📖 タスクの概要

なぜ、触れていないデータセットの clean バージョンをオントロジーの入力として使わなかったのか?

Clean データセットは、Foundry の多くの活動の出発点となることが多く、分析、モデリング、および他のデータパイプラインが含まれます。通常、raw データに密接に類似しており、そのためオントロジーのオブジェクトタイプやリンクタイプに必要なものよりもはるかに多くの列が含まれることがありますが、それでもこれらの他のワークフローにとっては貴重です。また、オントロジー元データセットに新しい派生列を追加することを決定し、その変更を clean バージョンに影響を与えずに行いたい場合があります。この中間変換ステップ( cleanontology)は、最初に形式的に感じる場合でも、常に推奨されます。

このトレーニングのルートで学んだ方法に従って、パイプラインの変換ステップを文書化し、スケジュールし、監視する必要があります。これらの要約の推奨事項に従って、知識をテストしてください。

🔨 タスクの説明

  1. パイプラインがデプロイされたら、Pipeline Builder の Pipeline outputs パネルの上部にある View Lineage ボタンをクリックします。

  2. データセットを展開してすべての祖先ノードを表示し、それらを論理的に配置します(ヒント:すべてのノードを選択し、ctrl+l をクリックしてみてください)。

  3. このデータフロー グラフを /Ontology Project: Flight Alerts/documentation/ に "Flight Alerts Pipeline (Full)" として保存します。

  4. /documentation フォルダーに、他のリポジトリ用に作成されたものと同じ構造の Notepad ドキュメントを追加します。所有者情報や説明を追加することを検討してください。前のチュートリアル「プロジェクト出力の作成」のセクション「書面でのパイプライン文書の追加」のタスクの概要から引用することもできます。

  5. データフロー グラフで Schedules ヘルパーを開き、Flight AlertsPassengers のスケジュールを編集して、ターゲットが新しい ontology データセットになるようにします(以前に設定された clean データセットではありません)。

  6. 以下のヘルスチェックを、3つの新しいオントロジーデータセットのそれぞれに適用し、関連するチェックグループに追加します。

    • Schema Check (COLUMN_ADDITIONS_ALLOWED_ STRICT)。
    • Primary Key(重要度 = 重大)。flight_alerts_passenger については、チェックで alert_display_namepassenger_id の組み合わせを確認するように設定します。
    • Time Since Last Updated(中央値より1つの偏差)

オントロジーでオブジェクトタイプとリンクタイプを設定した後に、最後のチェックを追加します。これらの新しいデータセットはすべて、既存の Schedule Status および Schedule Duration チェックに自動的に追加されます。