8. [Repositories] Ontology Data Pipelines29 - 付加的な元データセットの変更:パート 1
Warning

注: 以下の翻訳の正確性は検証されていません。AIPを利用して英語版の原文から機械的に翻訳されたものです。

29 - 追加の元データセットの変更:パート 1

この内容は learn.palantir.com ↗ でもご覧いただけますが、アクセシビリティの観点から、ここに掲載しています。

📖 タスクの概要

この演習では、元データセットとオントロジー設定の変更に関連する2つの主要なシナリオを対処する練習をします。

  1. 元データセットへの追加の変更。
  2. 元データセットへの破壊的な変更。

乗客オブジェクトタイプのタイトルキーは、単純に乗客の姓です。元データセットに full_name という新しい行を作成し、タイトルキーと入れ替えてみましょう。そうすることで、元データセットが新しい行を受け取ったときにオントロジー同期プロセスで何が起こるかを確認します。

🔨 タスクの説明

  1. ontology_flight_alerts_logic リポジトリを開き、passengers.py 変換ファイルを開きます。

    • ⚠️ *通常、このような変更を行うときには master からブランチを切りたいところですが、便宜上、直接 master に変更を加えます。
  2. 1行目のコメントを外して、pyspark.sql 関数をインポートできるようにします。

  3. return 文を以下のように更新します: return source_df.withColumn('full_name', F.concat(source_df.first_name, F.lit(' '), source_df.last_name))

  4. ベストプラクティスを使用してコードのプレビュー、コミット、ビルドを行います。

  5. データセットのビルドが完了したら、出力 passengers データセットを開き、以下の画像に示すように Details タブの Syncs セクションに進みます。ここでは、スキーマの変更にもかかわらず、データセットとオブジェクトストレージサービス(別名 "Phonograph")との同期が成功したことが確認できます。

  1. また、ここで Health タブにアクセスして、以前設定した Schema Check が通ったことを確認できます。チェックを COLUMN_ADDITIONS_ALLOWED_STRICT に設定したため、新しい行が追加されました。