Warning

注: 以下の翻訳の正確性は検証されていません。AIPを利用して英語版の原文から機械的に翻訳されたものです。

12 - パイプラインの文書化と更新

このコンテンツは learn.palantir.com でも以下の内容をご覧いただけますが、アクセシビリティの観点から、ここに掲載しています。

📖 タスクの概要

なぜ、手付かずのデータセットの clean バージョンをオントロジーの入力として使用しなかったのか?

Clean データセットは、Foundry の多くの活動の出発点であり、分析やモデリング、その他のデータパイプラインなどが含まれます。通常、raw データに非常に近い形であり、オントロジーのオブジェクトやリンクタイプに必要なものよりもはるかに多くの行を含んでいるかもしれませんが、それでもこれらの他のワークフローには貴重です。また、オントロジーを利用した元データセットに新しい派生行を追加することを検討するかもしれませんし、その変更を clean バージョンに影響を与えずに行いたいかもしれません。この中間変換ステップ(cleanontology)は、当初フォーマリティのように感じられる場合でも、常に推奨されます。

パイプラインに変換ステップを追加しましたので、トレーニングのルートで学んだ方法に従って、それらを文書化し、スケジュールし、監視する必要があります。これらの要約の推奨事項に従って、知識を試してみてください。

🔨 タスクの説明

  1. ビルドが完了したら、リポジトリの上部中央にある Explore lineage ボタンをクリックします。
  2. データセットを展開してすべての先祖ノードを表示し、それらを論理的に配置します(ヒント:すべてのノードを選択して ctrl+l をクリックしてみてください)。
  3. この Data Lineage グラフを /Ontology Project: Flight Alerts/documentation/ に保存します。

  1. 他のリポジトリで作成されたものと同じ構造の README ファイルをリポジトリに追加します。所有権情報や説明を追加することを検討してください。前のチュートリアル「プロジェクトアウトプットの作成」の「書面によるパイプライン文書の追加」セクションのタスクの概要から取得することができます。

  1. Data Lineage グラフで、Schedules ヘルパーを開き、Flight Alerts および Passengers のスケジュールを編集して、ターゲットが新しい ontology データセットになるようにします(以前に設定された clean データセットではありません)。

  1. 以下のヘルスチェックを、3つの新しいオントロジーデータセットそれぞれに適用し、関連するチェックグループに追加します。

    • Schema CheckCOLUMN_ADDITIONS_ALLOWED_ STRICT)。
    • Primary Key (重要度 = critical)。flight_alerts_passenger の場合、チェックを行って alert_display_namepassenger_id の組み合わせを確認してください。
    • Time Since Last Updated (1 偏差 > 中央値)

オントロジーでオブジェクトタイプとリンクタイプを設定した後に、最後のチェックを追加していきます。これらの新しいデータセットはすべて、既存の Schedule Status および Schedule Duration チェックに自動的に追加されます。