注: 以下の翻訳の正確性は検証されていません。AIPを利用して英語版の原文から機械的に翻訳されたものです。
この演習では、元データセットとオントロジー設定に関する2つの主要なシナリオに対処する方法を練習します。
乗客オブジェクトタイプのタイトルキーは、単純に乗客の苗字です。元データセットに full_name
という新しい行を作成し、タイトルキーと交換できるようにしましょう。そうすることで、元データセットに新しい行が追加されたときにオントロジー同期プロセスで何が起こるかを確認できます。
リポジトリ ontology_flight_alerts_logic
を開いて、 passengers.py
変換ファイルに進んでください。
master
からブランチを切ることが望ましいですが、便宜上、今回は master
に直接変更を加えます。1行目のコメントを解除して、pyspark.sql の関数をインポートできるようにします。
return 文を以下のように更新します。
return source_df.withColumn('full_name', F.concat(source_df.first_name, F.lit(' '), source_df.last_name))
ベストプラクティスに従ってコードのプレビュー、コミット、ビルドを行います。
データセットのビルドが完了したら、出力 passengers
データセットを開き、下の画像に示すように、詳細 タブの 同期 セクションに進みます。ここでは、スキーマ変更にもかかわらず、データセットとオブジェクトストレージサービス(別名 "Phonograph")間の同期が成功したことがわかります。
COLUMN_ADDITIONS_ALLOWED_STRICT
に設定したため、新しい行が追加されました。