8. [Repositories] Ontology Data Pipelines9 - ユーザーの元データセットを確認する

注: 以下の翻訳の正確性は検証されていません。AIPを利用して英語版の原文から機械的に翻訳されたものです。

9 - 元データセットの確認

learn.palantir.com でも以下の内容をご覧いただけますが、アクセシビリティの観点から、ここに掲載しています。

📖 タスクの概要

フライトアラートと乗客という 2 つのオブジェクトタイプを作成しリンクさせたいと考えています。最終的な目標は、アナリストが行動を起こすためのアラートインボックスアプリケーションを作成することであり、これには影響を受けた乗客への連絡が含まれる可能性があります。そのためには、データパイプラインをベストプラクティスに照らし合わせて確認し、フライトアラートと乗客のデータセットをオントロジーオブジェクトタイプに適用するためにさらに準備できることがないか確認しましょう。

🔨 タスクの説明

  1. ユーザーの個人用 /Temporary Training Artifacts/${yourName} フォルダーに進みます。
  2. /Data Engineering Tutorials フォルダーを右クリックし、フライアウトメニューから Explore data lineage を選択します。
  3. クリック可能な画像に示されているように、画面下部にある Data Health ヘルパータブと右側の Schedules パネルを開くことを検討してください。

このパイプラインでは、目的の結果に照らしてオントロジーオブジェクトを作成するための候補データセットが 3 つあります:

  • passengers_clean
  • flight_alerts_clean
  • flight_alerts_joined_passengers

オントロジー設計の以前の議論を思い出してください。データをプロパティまたはオブジェクトタイプとしてモデル化するための基準を検討しました。フライトアラートには乗客データが集計されているべきでしょうか(flight_alerts_joined_passengers を使用する場合はそうなります)、それとも構成されたオントロジーリンクタイプを介してフライトアラートから乗客データにアクセスするべきでしょうか?

データが単一の情報であれば、アラート情報と乗客情報を組み合わせることを検討できます。この場合、アラートと乗客の間には 1 対多の関係があるため、乗客データはアラートごとに 集計 されることになります。乗客データはフライトアラートに関する 主要な 補助情報でもありません。概念的には、乗客とフライトアラートは非常に異なるエンティティであり、検索のセマンティクスや使用ケースも異なります。

これらの理由から、元データセット間の共有キーによって可能になるリンクを介して接続された別々のオブジェクトタイプとしてモデル化しましょう。