8. [Builder] Ontology Data Pipelines9 - 元データセットの確認
Warning

注: 以下の翻訳の正確性は検証されていません。AIPを利用して英語版の原文から機械的に翻訳されたものです。

9 - 元データセットの確認

learn.palantir.com ↗でも以下の内容をご覧いただけますが、アクセシビリティの観点から、ここに掲載しています。

📖 タスクの概要

フライトアラートと乗客という2つのオブジェクトタイプを作成し、リンクすることを目指しています。最終的な目標は、アナリストがアクションを起こすためのアラートインボックスアプリケーションを作成し、可能であれば影響を受ける乗客に連絡することです。その目標を念頭に、ユーザーのデータパイプラインを見直し、ベストプラクティスに準拠しているか確認し、フライトアラートと乗客のデータセットをオントロジーオブジェクトタイプの元データセットとしてさらに準備するために何かできることがないかを判断します。

🔨 タスクの説明

  1. ユーザーの個人的な /Temporary Training Artifacts/${yourName} フォルダーに進みます。
  2. /Data Engineering Tutorials フォルダーを右クリックし、フライアウトメニューから データフローを探索する を選択します。

このパイプラインには、望ましい結果に照らしてオントロジーオブジェクトを作成するための2つの候補データセットがあります:

  • passengers_clean
  • flight_alerts_clean

我々のオントロジーモデルを考慮するとすぐに浮かんでくる疑問の一つは、フライトアラートが集約された乗客データを含むべきか、それとも設定済みのオントロジーリンクタイプを介してフライトアラートから乗客データにアクセスするだけで良いのか、ということです。

データが単一の情報ピースである場合、アラートと乗客情報を組み合わせることを考えるかもしれません。しかし、アラートと乗客の間には1対多の関係があるため、乗客データはアラートごとに集約されるでしょう。乗客データは、フライトアラートについての情報を 主に 支えているわけではありません。概念的には、乗客とフライトアラートは非常に異なるエンティティであり、検索のセマンティクスと使用ケースも非常に異なります。

これらの理由から、それらを元データセット間で共有されるキーにより可能となるリンクを介して接続された別々のオブジェクトタイプとしてモデル化しましょう。