8. [Builder] Ontology Data Pipelines11 - オントロジーデータ変換

注: 以下の翻訳の正確性は検証されていません。AIPを利用して英語版の原文から機械的に翻訳されたものです。

11 - オントロジーデータトランスフォーム

この内容は learn.palantir.com ↗ でもご覧いただけますが、アクセシビリティの観点から、ここに掲載しています。

📖 タスクの概要

新しいパイプライン製作物では、オントロジーオブジェクトとリンクタイプをバックするために、3 つの入力データセットを使用して 3 つの出力を生成します。

  1. flight_alerts_clean: これはフライトアラートオブジェクトタイプをバックしますが、まず category 列を削除します。これは、予想されるワークフローでは必要ないためです(オントロジーのストレージサービスに同期されるデータ量を減らすことは、計算負荷も減らします)。
  2. passengers_clean: このデータセットには現時点で更新の必要がないと判断されたため、Pipeline Builder を使用してそのまま出力に通します。
  3. passenger_flight_alert_clean: 乗客とフライトアラートの間には多対多の関係があります。リレーショナルデータベースの多対多の結合と同様に、オントロジーの多対多のリンクタイプをバックするためには結合テーブルが必要です。したがって、このデータセットも準備する必要があります。これはすでにパイプラインの一部であり、追加の準備は不要と仮定します。

🔨 タスクの説明

  1. 上記の 3 つのデータセットをインポートします。
  2. passengers_cleanpassenger_flight_alert_clean の出力データセットを passengerspassenger_flight_alerts として作成します。
  3. flight_alerts_clean に対して category 列を削除するトランスフォームを追加します。
  4. そのフライトアラートトランスフォームから flight_alerts という出力データセットを作成します。
  5. パイプラインをデプロイします。