5. [Builder] トランスフォームプロジェクト4 - クリーンな出力を作成する

注: 以下の翻訳の正確性は検証されていません。AIPを利用して英語版の原文から機械的に翻訳されたものです。

4 - クリーンな出力を作成する

📖 タスクの概要

ユーザーの passengers_raw データは、組織全体で広く利用する前に、いくつかのクリーニングステップが必要です:

  • dob 行を日付型に変換する
  • JSON 解析プロセスから残った不要な行を削除する
  • flyer_status 行を正規化する

🔨 タスクの説明

  1. 現在、ユーザーの .../data/raw/ フォルダーにいます。 .../data/clean/ に進んでください。

  2. 新しいパイプライン作成物として passengers_datasource_clean を追加してください。

  3. 作成した2つのデータセットを .../raw/ フォルダーにインポートしてください。

  4. passenger_flight_alerts_raw はクリーニングが必要ありません。 passenger_flight_alerts_clean という出力を作成してください。

  5. passengers_raw の後に変換ステップを追加し、以下のロジックを適用してください(必要に応じて下の画像を参考にしてください):

    • 年に "19" を追加するために 文字列の連結 を使用した後、dob 行を 日付 型に キャスト する
    • _error_file 行を 削除 する
    • flyer_status 行に タイトルケース 変換を適用する

    ステップ5では、まず、最初のスクリーンショットに示されているように、年に "19" を前置するために 文字列の連結 を使用して dob 行をクリーンアップし、それを第二のスクリーンショットに示されている キャスト や他のクリーンアップのために準備します。

    5a:

    5b:

  6. 変換ノードの名前を Clean Passengers にしてください。

  7. 変換から passengers_clean という出力を作成してください。

  8. グラフ上のノードを希望の色に塗ってください。

  9. パイプラインを保存し、デプロイしてください。