2. [Builder] データ変換入門1 - このコースについて

注: 以下の翻訳の正確性は検証されていません。AIPを利用して英語版の原文から機械的に翻訳されたものです。

1 - このコースについて

コンテキスト

DATAENG ラーニングパスは、外部ソースへの接続がすでに行われており、そのソースが生データの「コピー」されたデータセットのセットを提供していることを前提としています。便宜上、ユーザーの Foundry 環境にはこれらの生トレーニングデータセットが用意されています。実際には、データ接続プロセスを介して生データセットを統合し、それらのデータセットの前処理およびクリーニングされたバージョンを下流で使用するために作成するのは、Foundry データエンジニアリングの連続体の一部です。データ接続プロセスの詳細については、関連する製品ドキュメント を参照してください。

チームがデータセットと変換ステップに合意し、アウトカムを達成するために必要なものを決定したら、データアセットの開発を開始することができます。Pipeline Builder アプリケーションには、変換ロジックを構成し、プロダクションパイプライン の一部として新しいデータ変換を構築できる完全に統合されたツールスイートが含まれています。Foundry アプリケーションのいくつかは、データセットを変換して出力することができます(例:Code Repositories、Contour、Code Workbook、Preparation、Fusion)が、このラーニングパスを通して説明する理由により、プロダクションパイプラインは Pipeline Builder でのみ構築する必要があります。また、特殊なコードが必要な場合は、Code Repositories アプリケーションを使用します。

⚠️ コースの前提条件

  • DATAENG 01 データパイプラインの基礎:このトラックの前のコースをまだ完了していない場合は、今すぐ行ってください。

アウトカム

前のチュートリアルでは、推奨されるパイプラインプロジェクト構造を実装する一連のフォルダーを作成しました。これから、Pipeline Builder アプリケーションを使用して、パイプラインの初期データセットを生成します。

3つの生データセットから始めます。最初のデータセットには、フライトアラートに関するデータが含まれており、アラートのステータスと優先度を示す列が含まれています。生の形式では、これら2つの列には数値のみが含まれており、マッピングテーブルとして機能する他の2つの生データセットを使用して文字列にマップする必要があります(例:データセットAの優先度「1」は、データセットBを使用して「High」に変換する必要があります)。 次に、Pipeline Builder を使用して、基本的な変換を使用してデータを正規化および整形します。生ファイル間のマッピングを行わずに、それらをさらにクリーニングして最終的に下流で結合するために前処理することが最初の目標です(後続のチュートリアルで)。

短く言えば、このトレーニングの入力は上流ソースからのシミュレートされた生データセットであり、出力は次のチュートリアルでさらにクリーニングされるための「前処理」されたデータセットです。

🥅 学習の目的

  1. Pipeline Builder アプリケーションでパイプラインを開始します。
  2. データパイプライン開発における前処理とクリーニングの重要性を理解します。
  3. Pipeline Builder でデータを変換するための追加の練習を行います。

💪 Foundry のスキル

  • Pipeline Builder を使用してパイプラインを作成します。
  • Pipeline Builder を使用してデータを変換し、出力データセットを生成します。