8. [Builder] オントロジーデータパイプライン9 - 元データセットの確認

注: 以下の翻訳の正確性は検証されていません。AIPを利用して英語版の原文から機械的に翻訳されたものです。

9 - 元データセットの確認

📖 タスクの概要

フライトアラートと乗客という2つのオブジェクトタイプを作成し、リンクさせることを目指しています。最終的な目標は、アナリストがアクションを起こすためのアラート受信箱アプリケーションを作成することで、影響を受ける乗客に連絡を取ることを含む可能性があります。その目標を念頭に、ユーザーのデータパイプラインを見直し、ベストプラクティスと照らし合わせ、フライトアラートと乗客のデータセットをオントロジーオブジェクトタイプの元にするために更なる準備が必要かどうかを判断しましょう。

🔨 タスクの説明

  1. ユーザーのパーソナル /Temporary Training Artifacts/${yourName} フォルダーに進む。
  2. /Data Engineering Tutorials フォルダーを右クリックし、フライアウトメニューから データフローを探索する を選択します。

このパイプラインでは、目指す結果を考慮に入れて、オントロジーオブジェクトを作成するための2つの候補データセットがあります:

  • passengers_clean
  • flight_alerts_clean

オントロジーモデルを考慮に入れると、フライトアラートが集約された乗客データを含むべきか、あるいは設定済みのオントロジーリンクタイプを介してフライトアラートから乗客データにアクセスするだけで良いのかという問題がすぐに浮上します。

データが集約ではなく一つの情報片である場合、アラートと乗客情報を組み合わせることを考えるかもしれません。この場合、アラートと乗客の間には一対多の関係があるため、乗客データはアラートごとに集約されます。また、乗客データはフライトアラートに関する情報を主にサポートするものではありません。概念的には、乗客とフライトアラートは非常に異なるエンティティであり、検索セマンティクスやユースケースも大いに異なります。

これらの理由から、元データセット間で共有されるキーによって可能になるリンクを介して、それらを別のオブジェクトタイプとしてモデル化しましょう。