29 - 追加の元データセットの変更：パート 1

この内容は learn.palantir.com ↗ でもご覧いただけますが、アクセシビリティの観点から、ここに掲載しています。

📖 タスクの概要

この演習では、元データセットとオントロジー設定の変更に関連する2つの主要なシナリオを対処する練習をします。

乗客オブジェクトタイプのタイトルキーは、単純に乗客の姓です。元データセットに full_name という新しい行を作成し、タイトルキーと入れ替えてみましょう。そうすることで、元データセットが新しい行を受け取ったときにオントロジー同期プロセスで何が起こるかを確認します。

ontology_flight_alerts_logic リポジトリを開き、passengers.py 変換ファイルを開きます。
- ⚠️ *通常、このような変更を行うときには master からブランチを切りたいところですが、便宜上、直接 master に変更を加えます。
1行目のコメントを外して、pyspark.sql 関数をインポートできるようにします。
return 文を以下のように更新します： return source_df.withColumn('full_name', F.concat(source_df.first_name, F.lit(' '), source_df.last_name))
ベストプラクティスを使用してコードのプレビュー、コミット、ビルドを行います。
データセットのビルドが完了したら、出力 passengers データセットを開き、以下の画像に示すように Details タブの Syncs セクションに進みます。ここでは、スキーマの変更にもかかわらず、データセットとオブジェクトストレージサービス（別名 "Phonograph"）との同期が成功したことが確認できます。

また、ここで Health タブにアクセスして、以前設定した Schema Check が通ったことを確認できます。チェックを COLUMN_ADDITIONS_ALLOWED_STRICT に設定したため、新しい行が追加されました。