注: 以下の翻訳の正確性は検証されていません。AIPを利用して英語版の原文から機械的に翻訳されたものです。

6 - 前処理ロジック: フライトアラート

📖 タスクの概要

パイプライン作成物が作成されたので、いくつかの Pipeline Builder 変換を使用して、特定されたフォーマットの問題を修正しましょう。flight_alerts データから始めて、次の問題があります。

  • 列名がさまざまな形式で表示され、"snake case"(例:flightDate から flight_date に)に標準化する必要があります。
  • カテゴリー行の値を正規化する必要があります。
  • flightDate 行を日付にキャストする必要があります。
  • priority と status 列を整数から文字列にキャストする必要があります。値は実際に整数ですが、数学的な操作が関与する場合にのみ整数値を使用することがベストプラクティスです。

🔨 タスクの説明

  1. パイプライン内の flight_alerts_raw ノードに変換を追加します。

  2. アプリケーションの左上隅で、変換の名前を Preprocess flight_alerts に設定します。

  3. 次の変換を適用します。

    • 列名の正規化
    • 空白のトリミングcategory に適用)
    • タイトルケースcategory に適用)
    • flight_dateM/d/yy の形式を使用して dateキャスト します。
    • prioritystatusstringキャスト します。
    • アプリケーションの下部にあるデータセットプレビューウィンドウを使用して、タスクの概要で述べられたデータの問題が確かに解決されていることを確認します。
    • 画面の右側にある ⊕ パイプライン出力を追加 ボタンをクリックします。
    • 出力の名前を flight_alerts_preprocessed とします。
    • パイプラインを 保存 します。