2. [Repositories] データ変換入門1 - このコースについて

注: 以下の翻訳の正確性は検証されていません。AIPを利用して英語版の原文から機械的に翻訳されたものです。

1 - このコースについて

コンテクスト

現在、データエンジニアリングのトレーニングのルートは、データ取り込みプロセスが終了したところから始まります。それは、概念的な上流ソースから「コピーされた」一連の生データセットです。ユーザーの Foundry 環境は、便宜上、出発点としてこれらの生のトレーニングデータセットを用意しています。実際には、データ接続プロセスを通じて生データセットを取り込み、それらのデータセットの事前処理版とクリーン版を下流での利用のために作成することは、すべて Foundry データエンジニアリングの連続したステップです。データ接続プロセスの詳細については、関連する製品ドキュメンテーションを参照してください。

ユーザーのチームが必要なデータセットと変換ステップについて合意したら、Foundry コードリポジトリでデータアセットの開発を始める時期になります。Code Repository アプリケーションには、コードを書き、公開し、プロダクションパイプラインの一部としてデータ変換を構築するための完全に統合されたツールスイートが含まれています。Foundry アプリケーションには、データセットを変換して出力することができるものがいくつかあります (例: Contour、Code Workbook、Preparation、Fusion) が、このルートを通じて探求する理由により、プロダクションパイプラインは Code Repositories アプリケーションか Pipeline Builder アプリケーションのいずれかでのみ構築すべきです。なお、Pipeline Builder を使用した同じチュートリアルも追求することができます。

⚠️ コースの前提条件

  • DATAENG 01: このルートの前のコースをまだ完了していない場合は、今すぐ行ってください。
  • コードリポジトリを作成するための必要な権限。認証が必要な場合は、プログラム管理者または Palantir の連絡先に問い合わせてください。
  • コードベースのデータ変換についての一般的な理解:このコースでは PySpark コードスニペットを提供しますので、PySpark 固有の知識は必要ありませんが、コード (例: SQL、Java、Python、R) を使用したデータ変換の基本的な理解は、概念的な利点を提供します。
  • Git におけるソースコード管理のワークフロー (ブランチ化とマージ) (外部) についての一般的な理解は有用ですが、必須ではありません。

結果

前のチュートリアルでは、推奨されるパイプラインプロジェクト構造を実装する一連のフォルダーを作成しました。今回は、Code Repositories アプリケーションを使用して、パイプラインの初期データセットを生成します。

トレーニングの便宜上、前のチュートリアルで構築した Datasource Project に、出発点となる生のデータセットのコピーを作成することから始めます。3つの生のデータセットを扱います。最初のデータセットには、フライトアラートに関するデータが含まれており、アラートのステータスと優先度を示す行が含まれています。これらの2つの行は、生の形式では数値のみを含んでおり、マッピングテーブルとして機能する他の2つの生のデータセットを使用して文字列にマッピングする必要があります (例: データセット A の「1」の優先度は、データセット B を使用して「High」に変換する必要があります)。

次に、PySpark を使用して、基本的なクリーニングユーティリティを使用してデータを正規化し、形式を整えます。生のファイル間でのマッピングを行うことはありません。最初の目標は、それらをさらなるクリーニングと最終的な結合のために事前処理することだけです(これは後続のチュートリアルで行います)。要するに、このトレーニングの入力は上流ソースからの模擬生データセットであり、出力は次のチュートリアルでさらにクリーニングするためにフォーマットされた「事前処理」データセットになります。

🥅 学習の目的

  1. Code Repositories 環境をナビゲートする。
  2. データ変換の基本的な構造を学ぶ。
  3. Foundry コードリポジトリでのコード管理の仕組みを理解する。
  4. PySpark データ変換の書き方を練習する。
  5. データパイプライン開発における事前処理とクリーニングの重要性を理解する。
  6. データ変換のためのコードリポジトリを作成し、設定する基本的なパターンを理解する。

💪 Foundry のスキル

  • Foundry Code Repository をブートストラップする。
  • 再利用可能なコードユーティリティを作成し、実装する。
  • ブランチ化とパイプラインドキュメンテーションのベストプラクティスを実装する。