5B. [Repositories] Code Repositories での共有ライブラリの公開と使用1 - このコースについて

注: 以下の翻訳の正確性は検証されていません。AIPを利用して英語版の原文から機械的に翻訳されたものです。

1 - このコースについて

Raw データセットは、通常、形式が不正であったり、下流の消費に適さない機密データを含んでいるため、大幅に制限されています。このトレーニングのルートで学んだように、データソースプロジェクトの主な出力は、プロダクションデータパイプラインの次のステップを含む、複数のケースで使用できる clean データセットです。前のチュートリアルでは、raw の JSON と CSV ファイルを、Datasource Project: Passengers に含まれる前処理された「乗客」データセットに変換しました。次のステップは、clean なデータセットの出力を生成することです。

ユーザーの組織では、変換の使用ケース全体に適用できる標準化されたクリーニングユーティリティのセットから利益を得る共通のデータフォーマットがあるかもしれません。各使用で同じクリーニングユーティリティコードを非効率的に繰り返すのではなく、Python コードライブラリを開発して公開し、企業全体で共有することができます。

⚠️ コースの事前条件

  • DATAENG 05a: コードリポジトリの Raw ファイルの操作: 前のコースをまだ完了していない場合、今すぐそれを行います。

アウトカム

Python コードライブラリを組織全体で公開し、消費することは、Foundry のデータエンジニアのツールキットの重要な部分です。データソースプロジェクトから clean な乗客データの出力を作成する過程で (つまり、passengers_cleanpassengers_flight_alerts_clean )、クリーニングユーティリティを作成、公開し、別の変換で使用します。具体的には、コードリポジトリでのデータ変換の紹介からクリーニング関数を共有ライブラリに移行し、それをデータソースリポジトリの両方で参照します。乗客データをクリーニングした後、JSON と CSV のパイプラインを統合する出力乗客データセットを作成します。

🥅 学習の目的

  1. Foundry が一般的にどのようにパッケージを利用可能にするかを理解する。
  2. Python ライブラリの作成、公開、使用方法を知る。
  3. データソースプロジェクトから clean なデータセットの出力を生成する追加の練習。

💪 Foundry のスキル

  • クリーニングユーティリティ関数を書く。
  • クリーニングユーティリティを共有 Python ライブラリとして公開する。
  • 別のコードリポジトリで共有ライブラリを実装する。