2. [Repositories] Introduction to Data Transformations1 - このコースについて
Warning

注: 以下の翻訳の正確性は検証されていません。AIPを利用して英語版の原文から機械的に翻訳されたものです。

1 - このコースについて

learn.palantir.com でも以下の内容をご覧いただけますが、アクセシビリティの観点から、ここに掲載しています。learn.palantir.com

コンテキスト

現在、データエンジニアリングのトレーニングのルートは、データ取り込みプロセスが終了するところから始まります。これは、仮想の上流ソースからコピーされた一連の生データセットを持っています。ユーザーの Foundry 環境には、これらの生データセットが用意されており、便宜上、これを出発点として採用します。実際には、データ接続プロセスを経て生データセットを収集し、それらのデータセットを下流で使用するための前処理済みおよびクリーニング済みバージョンを作成することは、Foundry データエンジニアリングの連続体の一部です。データ接続プロセスの詳細については、関連する製品ドキュメントを参照してください。

チームがデータセットと変換手順について合意したら、Foundry のコードリポジトリでデータアセットの開発を開始する時が来ました。Code Repository アプリケーションには、本番パイプラインの一部としてデータ変換を作成、公開、ビルドできる完全に統合されたツールスイートが含まれています。Foundry には、データセットを変換して出力できるアプリケーションがいくつかあります(例:Contour、Code Workbook、Preparation、Fusion)。しかし、このルートを通じて詳しく説明する理由から、本番パイプラインは Code Repositories アプリケーションまたは Pipeline Builder アプリケーションのいずれかでのみ構築する必要があります。また、Pipeline Builder を使用した同じチュートリアルも利用できることに注意してください。

⚠️ コースの前提条件

  • DATAENG 01: このルートの前のコースをまだ完了していない場合、今すぐ行ってください。
  • コードリポジトリを作成するための必要な権限。権限が必要な場合は、プログラム管理者または Palantir の担当者に連絡してください。
  • コードベースのデータ変換に関する一般的な知識:このコースでは PySpark のコードスニペットが提供されるため、PySpark 固有の知識は必要ありませんが、コード(例:SQL、Java、Python、R)を使用してデータを変換する方法の基本的な理解が概念的な利点を提供します。
  • Git ↗でのソースコード管理ワークフロー(ブランチングとマージ)に関する一般的な知識は有益ですが、必須ではありません。

アウトカム

前のチュートリアルでは、推奨されるパイプラインプロジェクト構造を実装する一連のフォルダーを作成しました。今度は、Code Repositories アプリケーションを使用して、パイプラインの最初のデータセットを生成します。

トレーニングの利便性のために、前のチュートリアルで構築したDatasource Projectに、最初の生データセットのコピーを作成することから始めます。3つの生データセットを扱います。最初のデータセットには、フライトアラートに関するデータが含まれており、アラートのステータスと優先度を示す行が含まれています。これらの2つの行は、生のままでは数値のみが含まれており、マッピングテーブルとして機能する他の2つの生データセットを使用して文字列にマップする必要があります(例:データセット A の優先度「1」をデータセット B を使用して「High」に変換する)。

次に、PySpark を使用して、基本的なクリーニングユーティリティを使用してデータを正規化および書式設定します。生のファイル間のマッピングは行わず、まずはそれらをさらなるクリーニングと最終的な結合のために事前処理するだけです(次のチュートリアルで行います)。 要するに、このトレーニングの入力は、上流ソースからのシミュレートされた生データセットであり、出力は、次のチュートリアルでさらにクリーニングするためにフォーマットされた「事前処理済み」データセットです。

🥅 学習の目的

  1. Code Repositories 環境を操作する方法を学ぶ。
  2. データ変換の基本的な構造を学ぶ。
  3. Foundry のコードリポジトリでのコード管理の仕組みを理解する。
  4. PySpark のデータ変換を書く方法を練習する。
  5. データパイプライン開発における事前処理とクリーニングの重要性を理解する。
  6. データ変換用のコードリポジトリの作成と構成の基本パターンを理解する。

💪 Foundry のスキル

  • Foundry コードリポジトリをブートストラップする。
  • 再利用可能なコードユーティリティを作成および実装する。
  • ブランチングとパイプラインドキュメントのベストプラクティスを実装する。