注: 以下の翻訳の正確性は検証されていません。AIPを利用して英語版の原文から機械的に翻訳されたものです。
現在、データエンジニアリングのトレーニングのルートは、データ取り込みプロセスが終了したところから始まります。それは、概念的な上流ソースから「コピーされた」一連の生データセットです。ユーザーの Foundry 環境は、便宜上、出発点としてこれらの生のトレーニングデータセットを用意しています。実際には、データ接続プロセスを通じて生データセットを取り込み、それらのデータセットの事前処理版とクリーン版を下流での利用のために作成することは、すべて Foundry データエンジニアリングの連続したステップです。データ接続プロセスの詳細については、関連する製品ドキュメンテーションを参照してください。
ユーザーのチームが必要なデータセットと変換ステップについて合意したら、Foundry コードリポジトリでデータアセットの開発を始める時期になります。Code Repository アプリケーションには、コードを書き、公開し、プロダクションパイプラインの一部としてデータ変換を構築するための完全に統合されたツールスイートが含まれています。Foundry アプリケーションには、データセットを変換して出力することができるものがいくつかあります (例: Contour、Code Workbook、Preparation、Fusion) が、このルートを通じて探求する理由により、プロダクションパイプラインは Code Repositories アプリケーションか Pipeline Builder アプリケーションのいずれかでのみ構築すべきです。なお、Pipeline Builder を使用した同じチュートリアルも追求することができます。
前のチュートリアルでは、推奨されるパイプラインプロジェクト構造を実装する一連のフォルダーを作成しました。今回は、Code Repositories アプリケーションを使用して、パイプラインの初期データセットを生成します。
トレーニングの便宜上、前のチュートリアルで構築した Datasource Project に、出発点となる生のデータセットのコピーを作成することから始めます。3つの生のデータセットを扱います。最初のデータセットには、フライトアラートに関するデータが含まれており、アラートのステータスと優先度を示す行が含まれています。これらの2つの行は、生の形式では数値のみを含んでおり、マッピングテーブルとして機能する他の2つの生のデータセットを使用して文字列にマッピングする必要があります (例: データセット A の「1」の優先度は、データセット B を使用して「High」に変換する必要があります)。
次に、PySpark を使用して、基本的なクリーニングユーティリティを使用してデータを正規化し、形式を整えます。生のファイル間でのマッピングを行うことはありません。最初の目標は、それらをさらなるクリーニングと最終的な結合のために事前処理することだけです(これは後続のチュートリアルで行います)。要するに、このトレーニングの入力は上流ソースからの模擬生データセットであり、出力は次のチュートリアルでさらにクリーニングするためにフォーマットされた「事前処理」データセットになります。