8. [Repositories] Ontology Data Pipelines10 - オントロジープロジェクトの構築
Warning

注: 以下の翻訳の正確性は検証されていません。AIPを利用して英語版の原文から機械的に翻訳されたものです。

10 - オントロジープロジェクトの構築

learn.palantir.com でも以下の内容をご覧いただけますが、アクセシビリティの観点から、ここに掲載しています。

📖 タスクの概要

データエンジニアリングのラーニングパスで作成したTransform Projectの続きから始めます。オントロジーオブジェクトやリンクタイプを支えるために使用されるデータセットは、コードリポジトリからOntology Projectに出力されるべきです。 このタスクでは、オントロジープロジェクトのフォルダーとリポジトリを設定し、準備済みのデータセットを出力するコードを生成します。まず、Data Lineage グラフを開いた状態で、flight_alerts_cleanpassengers_clean のデータセットが追加の準備を必要としているかどうかを確認しましょう。

🔨 タスクの説明

  1. 開いた Data Lineage グラフで、flight_alerts_clean データセットノードをクリックし、画面の左下にある Preview ヘルパータブを開きます。

    • 行名がすべて snake_case で書かれていること、データが一貫して整形されていること、そしてすべての行が flight_date 行を除いて文字列であることに注意してください。
  2. Preview ヘルパーで alert_display_name の隣にある "▾" をクリックし、View stats を選択して主キーの一意性を確認します。値のヒストグラムで、1回以上現れる値がないことを確認します。

    • このデータセットには、主キーが一意でない場合にビルドを失敗させる主キーのデータ期待値チェックもあります。
  3. データセットの行を確認し、「フライトアラートのオブジェクトタイプは、すべての既知のワークフローをサポートするために、これらの行をすべてオブジェクトプロパティとしてマップする必要があるか?」と自問します。

    • 今のところ、rule_id 行は必要ないと考え、このデータセットから削除しても運用上の問題はないとしましょう。
  4. passengers_clean データセットについてもこれらのレビューステップを繰り返します。これもまたベストな命名とスキーマのプラクティスに準拠しており、その行が必要なプロパティに完全にマップすると仮定します。

  5. Ontology Project フォルダーと関連する変換作成物を作成しましょう。../Data Engineering Tutorials/ フォルダーに戻り、Ontology Project: Flight Alertsという新しいフォルダーを作成します。

  6. ベストプラクティスに従って、以下のサブフォルダーを少なくとも作成します:

    • /data
      • /transformed
      • /ontology
    • /analysis
    • /documentation
  7. /Ontology Project: Flight Alerts フォルダーに ontology_flight_alerts_logic という新しい Python コードリポジトリを作成します。