注: 以下の翻訳の正確性は検証されていません。AIPを利用して英語版の原文から機械的に翻訳されたものです。
この内容は learn.palantir.com ↗ でもご覧いただけますが、アクセシビリティの観点から、ここに掲載しています。
Raw データセットは通常、高度に制限されています。これは、しばしば不正な形式や機密データを含んでおり、下流での利用に適さないためです。トレーニングのルートで学んだように、データソースプロジェクトの主な出力は、複数のケースで使用できるクリーンなデータセットであり、生産データパイプラインの次のステップとして利用できます。前のチュートリアルでは、raw JSON と CSV ファイルを前処理された「乗客」データセットにトランスフォームし、Datasource Project: Passengers に含めました。次のステップは、クリーンなデータセット出力を生成することです。
組織には、トランスフォームユースケース全体で適用できる標準化されたクリーニングユーティリティセットから恩恵を受ける共通データ形式があるかもしれません。同じクリーニングユーティリティコードを各用途ごとに非効率的に繰り返す代わりに、Python コードライブラリを開発して企業全体で共有することができます。
組織全体で共有される Python コードライブラリを公開および利用することは、Foundry のデータエンジニアのツールキットの重要な部分です。データソースプロジェクトからクリーンな乗客データ出力(たとえば、passengers_clean
および passengers_flight_alerts_clean
)を作成する過程で、クリーニングユーティリティを作成し、それを公開して別のトランスフォームで使用します。具体的には、Introduction to Data Transformation with Code Repositories のクリーニング関数を共有ライブラリに移行し、それらを 2 つのデータソースリポジトリで参照します。乗客データをクリーニングした後、JSON と CSV パイプラインを結合した出力乗客データセットを作成します。