8. [Repositories] Ontology Data Pipelines11 - オントロジーデータ変換
Warning

注: 以下の翻訳の正確性は検証されていません。AIPを利用して英語版の原文から機械的に翻訳されたものです。

11 - オントロジーデータ変換

このコンテンツは learn.palantir.com ↗ でも利用可能で、アクセシビリティのためにここに掲載されています。

📖 タスクの概要

新たに作成したリポジトリでは、3つの入力データセットを変換して、オントロジーのオブジェクトタイプとリンクタイプをバックアップするための準備を行います。

  1. flight_alerts_clean:これは、我々のフライトアラートオブジェクトタイプをバックアップしますが、まず、予想されるワークフローで必要とされていない rule_id 行を削除したいと思います(オントロジーのストレージサービスに同期するデータ量を減らすと、計算負荷も減る)。
  2. passengers_clean:このデータセットは、現時点でアップデートが必要ないと判断されたので、アイデンティティ変換としてそのまま通します。
  3. passenger_flight_alerts_clean:乗客とフライトアラートの間には多対多の関係があります。リレーショナルデータベースの多対多のジョインと同様に、オントロジーの多対多のリンクタイプをバックアップするためにはジョインテーブルが必要です。そのため、このデータセットも準備する必要があります。これは既に我々のパイプラインの一部であり(そして、これ以上の準備は必要ないと仮定します)。

🔨 タスクの説明

  1. ユーザーのコードリポジトリのファイルから、/datasets/examples.pyを削除します。ファイル名の隣にある...をクリックし、選択肢のメニューから削除を選びます。
  2. このトレーニングのルートで学んだプロセスを用いて、/dataflight_alerts.pyという新しいファイルを作成します。
  3. 入力をユーザーのflight_alerts_cleanに設定します(ユーザーの Foundry 環境には多数のflight_alerts_cleanデータセットが存在する可能性があるため、パイプラインで作成したものを選んでいることを再確認してください)。出力場所が.../Ontology Project: Flight Alerts/data/ontology/...になっていることを確認し、必要であればこれらのサブフォルダーを作成します(下の画像を参照)

  1. 例えば、返されたデータフレームで .drop('rule_id') を呼び出すことで、rule_id 行を削除します。
  2. 変更をプレビューし、意味のあるメッセージでコードをコミットします。
  3. /datasetspassengers.pypassenger_flight_alerts.pyの新しい変換ファイルを作成します。
  4. 各ファイルで、上記のステップ3の指示に従って出力パスを調整します。
  5. passengers.pyの入力がユーザーのpassengers_cleanに設定されていること、そしてpassenger_flight_alerts.pyがユーザーのpassenger_flight_alerts_cleanデータセットを入力として使用していることを確認します。
  6. これらのデータセットのいずれにもデータ変換は必要ないので、単に入力を返すことができます。
  7. コードのプレビューとコミットを行います。
  8. 各変換ファイルをビルドします。各ファイルに対してビルドボタンをクリックします(つまり、開いた変換ファイルごとに一度ビルドボタンをクリックする必要があります)。