2. [Builder] Introduction to Data Transformations5 - 前処理パイプラインの追加
Warning

注: 以下の翻訳の正確性は検証されていません。AIPを利用して英語版の原文から機械的に翻訳されたものです。

5 - 前処理パイプラインの追加

この内容は learn.palantir.com ↗でもご覧いただけますが、アクセシビリティの観点から、ここに掲載しています。

📖 タスクの概要

ユーザーの生データの一部は最適な形式ではありません。この演習では、Pipeline Builder の変換を使用してデータを前処理します。ユーザーのパイプラインで早期に修正したい異常には以下のようなものがあります(これらに限定されません):

  • flight_alerts_raw の flightDate 行は現在 string 型であり、date 型ではありません。
  • 両方のマッピングデータセットにあるマップされた value 行には余分なスペースがあり、テキストは小文字で キャラクターで区切られています。現在の値 "·······open_and_assigned" よりも "Open and Assigned" の方が望ましいです。

前の演習の “raw” パイプラインからの入力をこのステップの入力として使用します。現在、Pipeline Builder で指定された出力に変換を追加することはできません。そのため、ユーザーの /preprocessed フォルダーのパスに新しい Pipeline Builder 作成物を作成し、/raw に生成したデータセットを使用します。

🔨 タスクの説明

  1. ユーザーの ../Datasource Project: Flight Alerts/datasets/preprocessed/ フォルダーを開きます。
  2. 新しいバッチパイプラインを作成し、それを flight_alerts_datasource_preprocessed と名付けます。
  3. データセットの追加 ボタンを使用して、ユーザーの ../raw フォルダーにある3つのデータセットをインポートします。
  4. これらのデータセットに色と関連ラベルを適用することを検討してください(例えば、 “Raw”)。