8. [Repositories] オントロジーデータパイプライン11 - オントロジーデータ変換

注: 以下の翻訳の正確性は検証されていません。AIPを利用して英語版の原文から機械的に翻訳されたものです。

11 - オントロジーデータ変換

📖 タスクの概要

新しいリポジトリで、3つの入力データセットを変換し、オントロジーのオブジェクトタイプとリンクタイプを支える準備をします。

  1. flight_alerts_clean:このデータはフライトアラートのオブジェクトタイプを支えますが、まず rule_id 行を削除したいと思います。これは、予想されるワークフローでは必要ないためです(また、オントロジーのストレージサービスに同期するデータの量を減らすことで、計算負荷も減らせます)。
  2. passengers_clean:このデータセットは現時点で更新が必要ないと判断したため、アイデンティティ変換としてそのまま通します。
  3. passenger_flight_alerts_clean:乗客とフライトアラートの間には多対多の関係があります。関係データベースの多対多の結合と同様に、オントロジーの多対多のリンクタイプを支えるためには結合テーブルが必要です。したがって、既にパイプラインの一部であるこのデータセットも準備する必要があります(さらに、これ以上の準備が必要ないと仮定します)。

🔨 タスクの説明

  1. コードリポジトリのファイルで、/datasets/examples.py を削除します。ファイル名の隣の ... をクリックし、オプションメニューから Delete を選択します。
  2. このトレーニングのルートで学んだ手順を使用して、/dataflight_alerts.py という新しいファイルを作成します。
  3. Inputユーザーの flight_alerts_clean に設定します(Foundry 環境には多数の flight_alerts_clean データセットが含まれている可能性があるため、パイプラインで作成したものを選んでいることを確認してください)。出力先は .../Ontology Project: Flight Alerts/data/ontology/... に設定し、必要に応じてこれらのサブフォルダーを作成します(下の画像を参照)

  1. 例えば、返されたデータフレームに対して .drop('rule_id') を呼び出すことにより、rule_id 行を削除します。
  2. 変更をプレビューし、意味のあるメッセージでコードをコミットします。
  3. /datasetspassengers.pypassenger_flight_alerts.py の新しい変換ファイルを作成します。
  4. それぞれについて、上記のステップ3の指示に従って Output パスを調整します。
  5. passengers.py の入力がユーザーの passengers_clean に設定されていること、passenger_flight_alerts.pyユーザーの passenger_flight_alerts_clean データセットを入力として使用していることを確認します。
  6. これらのデータセットにはデータ変換が必要ないことを思い出し、そのまま入力を返すことができます。
  7. コードをプレビューし、コミットします。
  8. 各変換ファイルをビルドします。各ファイルの Build ボタンをクリックします(つまり、開いた変換ファイルごとにビルドボタンを一度クリックする必要があります)。