2. [Builder] データ変換入門5 - 前処理パイプラインの追加

注: 以下の翻訳の正確性は検証されていません。AIPを利用して英語版の原文から機械的に翻訳されたものです。

5 - 前処理パイプラインの追加

📖 タスクの概要

一部の生データの値が最適な形式でないことがあります。この演習では、Pipeline Builder の変換を使用してデータを前処理します。パイプラインの初期段階で修正したいいくつかの異常には、以下が含まれます(ただし、これらに限定されません)。

  • flight_alerts_raw の flightDate 行は、現在 string 型であり、date 型ではありません。
  • 両方のマッピングデータセットに含まれるマップされた value 列には余分なスペースがあり、テキストは小文字で文字で区切られています。現在の値「·······open_and_assigned」の代わりに、「Open and Assigned」としたいです。

このステップの入力には、前の演習の「raw」パイプラインの入力を使用します。現在、Pipeline Builder で指定された出力に変換を追加することはできません。したがって、/preprocessed フォルダー パスに新しい Pipeline Builder 作成物を作成し、/raw で生成したデータセットを入力として使用します。

🔨 タスクの説明

  1. ../Datasource Project: Flight Alerts/datasets/preprocessed/ フォルダーを開きます。
  2. 新しいバッチパイプラインを作成し、flight_alerts_datasource_preprocessed という名前を付けます。
  3. データセットを追加 ボタンを使用して、../raw フォルダー内の3つのデータセットをインポートします。
  4. これらのデータセットに色と関連するラベルを適用することを検討してください(例:「Raw」)。