8. [Repositories] オントロジーデータパイプライン10 - オントロジープロジェクトの構築

注: 以下の翻訳の正確性は検証されていません。AIPを利用して英語版の原文から機械的に翻訳されたものです。

10 - オントロジープロジェクトの構築

📖 タスクの概要

データエンジニアリングのラーニングパスでは トランスフォームプロジェクト を作成しました。オントロジーのオブジェクトやリンクタイプをバックアップするために使われるデータセットは、コードリポジトリから オントロジープロジェクト に出力するべきです。 このタスクでは、オントロジープロジェクトのフォルダーとリポジトリを設定し、準備されたデータセットを出力するコードを生成します。まず、ユーザーのデータフロー図を開いたまま、flight_alerts_cleanpassengers_clean データセットを確認し、さらなる準備が必要かどうかを決定しましょう。

🔨 タスクの説明

  1. ユーザーが開いているデータフロー図で、flight_alerts_clean データセットノードをクリックし、画面の左下にある プレビュー ヘルパータブを開きます。

    • すべての行の名前が snake_case で記述されていること、データが一貫してフォーマットされていること、そしてすべての行が flight_date 行を除いて文字列であることに注意してください。
  2. プレビュー ヘルパーで alert_display_name の隣にある "▾" をクリックし、統計を表示 を選択して、主キーの一意性を確認します。値のヒストグラムで、値が 1 回以上表示されないことを確認します。

    • このデータセットには、主キーが一意でない場合にビルドが失敗するデータ期待値チェックもあります。
  3. データセットの行を確認し、「フライトアラートのオブジェクトタイプは、すべての既知のワークフローをサポートするために、これらの行すべてをオブジェクトプロパティとしてマップする必要があるか?」と自問します。

    • 今のところ、rule_id 行は必要ないとし、このデータセットから削除しても運用上の問題はないとしましょう。
  4. passengers_clean データセットについてもこれらのレビューステップを繰り返します。これもベストプラクティスの命名とスキーマに従っており、行が必要なプロパティに完全にマップされていると仮定しましょう。

  5. オントロジープロジェクト フォルダーと関連するトランスフォーム作成物を作成しましょう。ユーザーの ../Data Engineering Tutorials/ フォルダーに戻り、Ontology Project: Flight Alerts という新しいフォルダーを作成します。

  6. ベストプラクティスに従って、少なくとも以下のサブフォルダーを作成します:

    • /data
      • /transformed
      • /ontology
    • /analysis
    • /documentation
  7. ユーザーの /Ontology Project: Flight Alerts フォルダーに ontology_flight_alerts_logic という新しいPythonコードリポジトリを作成します。