5. [Builder] Transforms Project4 - クリーンな出力を作成する
Warning

注: 以下の翻訳の正確性は検証されていません。AIPを利用して英語版の原文から機械的に翻訳されたものです。

4 - クリーニングされた出力の作成

learn.palantir.com でも以下の内容をご覧いただけますが、アクセシビリティの観点から、ここに掲載しています。

📖 タスクの概要

ユーザーの passengers_raw データは、組織内で広く利用する前に、いくつかのクリーニング手順が必要です。

  • dob 行を日付タイプに変換する
  • JSON解析プロセスから残った不要な行を削除する
  • flyer_status 行を正規化する

🔨 タスクの説明

  1. 現在 .../data/raw/ フォルダーにいます。 .../data/clean/ に進んでください。

  2. passengers_datasource_clean という新しいパイプライン作成物を追加します。

  3. 作成した2つのデータセットを .../raw/ フォルダーにインポートします。

  4. passenger_flight_alerts_raw はクリーニングが必要ありません。passenger_flight_alerts_clean という出力を作成してください。

  5. passengers_raw の後に変換ステップを追加し、以下のロジックを適用します(必要に応じて、以下の画像を参考にしてください):

    • CAST を使用して、dob 行を date タイプに変換する前に、文字列の連結 を使用して "19" を年に追加する
    • _error および _file 行を Drop する
    • flyer_status 行に Title Case 変換を適用する

    ステップ5では、まず、最初のスクリーンショットに示すように、文字列の連結 を使用して "19" を年に追加し、dob 行をクリーニングします。これにより、2つ目のスクリーンショットに示す CAST およびその他のクリーンアップが準備されます。

    5a:

    5b:

  6. 変換ノードの名前を Clean Passengers にします。

  7. 変換から passengers_clean という出力を作成します。

  8. グラフ上のノードに希望する色を付けます。

  9. パイプラインを保存し、デプロイします。