8. [Repositories] オントロジーデータパイプライン29 - 付加的な元データセットの変更:パート 1

注: 以下の翻訳の正確性は検証されていません。AIPを利用して英語版の原文から機械的に翻訳されたものです。

29 - 付加的な元データセットの変更:パート 1

📖 タスクの概要

この演習では、元データセットとオントロジー設定に関する2つの主要なシナリオに対処する方法を練習します。

  1. 元データセットに対する付加的な変更。
  2. 元データセットに対する破壊的な変更。

乗客オブジェクトタイプのタイトルキーは、単純に乗客の苗字です。元データセットに full_name という新しい行を作成し、タイトルキーと交換できるようにしましょう。そうすることで、元データセットに新しい行が追加されたときにオントロジー同期プロセスで何が起こるかを確認できます。

🔨 タスクの説明

  1. リポジトリ ontology_flight_alerts_logic を開いて、 passengers.py 変換ファイルに進んでください。

    • ⚠️ *通常、このような変更を行う際には master からブランチを切ることが望ましいですが、便宜上、今回は master に直接変更を加えます。
  2. 1行目のコメントを解除して、pyspark.sql の関数をインポートできるようにします。

  3. return 文を以下のように更新します。 return source_df.withColumn('full_name', F.concat(source_df.first_name, F.lit(' '), source_df.last_name))

  4. ベストプラクティスに従ってコードのプレビュー、コミット、ビルドを行います。

  5. データセットのビルドが完了したら、出力 passengers データセットを開き、下の画像に示すように、詳細 タブの 同期 セクションに進みます。ここでは、スキーマ変更にもかかわらず、データセットとオブジェクトストレージサービス(別名 "Phonograph")間の同期が成功したことがわかります。

  1. この画面で、先に設定した スキーマチェック が通ったことも確認できます。チェックを COLUMN_ADDITIONS_ALLOWED_STRICT に設定したため、新しい行が追加されました。