5B. [Repositories] Publishing and Using Shared Libraries in Code Repositories1 - このコースについて

注: 以下の翻訳の正確性は検証されていません。AIPを利用して英語版の原文から機械的に翻訳されたものです。

1 - このコースについて

この内容は learn.palantir.com ↗ でもご覧いただけますが、アクセシビリティの観点から、ここに掲載しています。

Raw データセットは通常、高度に制限されています。これは、しばしば不正な形式や機密データを含んでおり、下流での利用に適さないためです。トレーニングのルートで学んだように、データソースプロジェクトの主な出力は、複数のケースで使用できるクリーンなデータセットであり、生産データパイプラインの次のステップとして利用できます。前のチュートリアルでは、raw JSON と CSV ファイルを前処理された「乗客」データセットにトランスフォームし、Datasource Project: Passengers に含めました。次のステップは、クリーンなデータセット出力を生成することです。

組織には、トランスフォームユースケース全体で適用できる標準化されたクリーニングユーティリティセットから恩恵を受ける共通データ形式があるかもしれません。同じクリーニングユーティリティコードを各用途ごとに非効率的に繰り返す代わりに、Python コードライブラリを開発して企業全体で共有することができます。

⚠️ コース受講の前提条件

  • DATAENG 05a: Working with Raw Files in Code Repositories: 前のコースをまだ完了していない場合は、今すぐ完了してください。

成果

組織全体で共有される Python コードライブラリを公開および利用することは、Foundry のデータエンジニアのツールキットの重要な部分です。データソースプロジェクトからクリーンな乗客データ出力(たとえば、passengers_clean および passengers_flight_alerts_clean)を作成する過程で、クリーニングユーティリティを作成し、それを公開して別のトランスフォームで使用します。具体的には、Introduction to Data Transformation with Code Repositories のクリーニング関数を共有ライブラリに移行し、それらを 2 つのデータソースリポジトリで参照します。乗客データをクリーニングした後、JSON と CSV パイプラインを結合した出力乗客データセットを作成します。

🥅 学習の目的

  1. Foundry が一般的にパッケージを利用可能にする方法を理解する。
  2. Python ライブラリの書き方、公開方法、および使用方法を知る。
  3. データソースプロジェクトからクリーンなデータセット出力を生成する追加の練習。

💪 Foundry のスキル

  • クリーニングユーティリティ関数を書く。
  • クリーニングユーティリティを共有 Python ライブラリとして公開する。
  • 共有ライブラリを別のコードリポジトリで実装する。