5. [Builder] トランスフォームプロジェクト3 - 乗客データソースプロジェクトの作成と充実化、パート 2

注: 以下の翻訳の正確性は検証されていません。AIPを利用して英語版の原文から機械的に翻訳されたものです。

3 - 乗客データソースプロジェクトの作成と充実化、パート 2

📖 タスクの概要

Pipeline Builder のグラフでわかるように、passengers_raw_json にはスキーマがありません。これは、ファイルが JSON 形式で書かれているため、まず Spark で処理できる形式に変換する必要があるからです。このタスクでは、Pipeline Builder が JSON と XML を Foundry データセットに変換する方法を示します。

🔨 タスクの説明

  1. passengers_json_raw データセットに、JSON ファイルから行を抽出するボードを使用した変換を追加します。

  2. 変換画面の左上隅で変換に名前を付け、それを「Parse JSON」とします。

  3. Example data テキストエリアに、以下の JSON オブジェクトを入力します。これは、生データから取得したものです。Pipeline Builder は、この単一のオブジェクトからスキーマを推測できます。

    {
    "passenger_id": "0f7a3494b080426ca95bb6d155c33e42",
    "first_name": "Benjamin",
    "last_name": "Payne",
    "dob": "7/16/73",
    "country": "Mexico",
    "flyer_status": "None"
    }
    
  4. Generate Schema ボタンをクリックし、Apply をクリックします。

  5. グラフに戻り、新しい変換から passengers_raw という新しい出力を作成します。

  6. 以下に示すように、インポートと出力にノードカラーを追加することを検討します。

  7. パイプラインを保存してデプロイします。