注: 以下の翻訳の正確性は検証されていません。AIPを利用して英語版の原文から機械的に翻訳されたものです。
この内容は learn.palantir.com ↗ でもご覧いただけますが、アクセシビリティの観点から、ここに掲載しています。
この演習では、元データセットとオントロジー設定の変更に関連する2つの主要なシナリオを対処する練習をします。
乗客オブジェクトタイプのタイトルキーは、単純に乗客の姓です。元データセットに full_name
という新しい行を作成し、タイトルキーと入れ替えてみましょう。そうすることで、元データセットが新しい行を受け取ったときにオントロジー同期プロセスで何が起こるかを確認します。
ontology_flight_alerts_logic
リポジトリを開き、passengers.py
変換ファイルを開きます。
master
からブランチを切りたいところですが、便宜上、直接 master
に変更を加えます。1行目のコメントを外して、pyspark.sql 関数をインポートできるようにします。
return 文を以下のように更新します:
return source_df.withColumn('full_name', F.concat(source_df.first_name, F.lit(' '), source_df.last_name))
ベストプラクティスを使用してコードのプレビュー、コミット、ビルドを行います。
データセットのビルドが完了したら、出力 passengers
データセットを開き、以下の画像に示すように Details タブの Syncs セクションに進みます。ここでは、スキーマの変更にもかかわらず、データセットとオブジェクトストレージサービス(別名 "Phonograph")との同期が成功したことが確認できます。
COLUMN_ADDITIONS_ALLOWED_STRICT
に設定したため、新しい行が追加されました。