注: 以下の翻訳の正確性は検証されていません。AIPを利用して英語版の原文から機械的に翻訳されたものです。
Raw データセットは、通常、形式が不正であったり、下流の消費に適さない機密データを含んでいるため、大幅に制限されています。このトレーニングのルートで学んだように、データソースプロジェクトの主な出力は、プロダクションデータパイプラインの次のステップを含む、複数のケースで使用できる clean データセットです。前のチュートリアルでは、raw の JSON と CSV ファイルを、Datasource Project: Passengers に含まれる前処理された「乗客」データセットに変換しました。次のステップは、clean なデータセットの出力を生成することです。
ユーザーの組織では、変換の使用ケース全体に適用できる標準化されたクリーニングユーティリティのセットから利益を得る共通のデータフォーマットがあるかもしれません。各使用で同じクリーニングユーティリティコードを非効率的に繰り返すのではなく、Python コードライブラリを開発して公開し、企業全体で共有することができます。
Python コードライブラリを組織全体で公開し、消費することは、Foundry のデータエンジニアのツールキットの重要な部分です。データソースプロジェクトから clean な乗客データの出力を作成する過程で (つまり、passengers_clean
と passengers_flight_alerts_clean
)、クリーニングユーティリティを作成、公開し、別の変換で使用します。具体的には、コードリポジトリでのデータ変換の紹介からクリーニング関数を共有ライブラリに移行し、それをデータソースリポジトリの両方で参照します。乗客データをクリーニングした後、JSON と CSV のパイプラインを統合する出力乗客データセットを作成します。