2. [Builder] Introduction to Data Transformations1 - このコースについて
Warning

注: 以下の翻訳の正確性は検証されていません。AIPを利用して英語版の原文から機械的に翻訳されたものです。

1 - このコースについて

learn.palantir.com でも以下の内容をご覧いただけますが、アクセシビリティの観点から、ここに掲載しています。learn.palantir.com

コンテキスト

DATAENG ラーニングパスは、外部ソースへの接続がすでに確立されており、そのソースが生データの「コピー」されたデータセットを提供していることを前提としています。便宜上、ユーザーの Foundry 環境には、これらの生データのトレーニングデータセットが準備されています。実際には、生データセットをデータ接続プロセスを介して統合し、それらのデータセットの前処理された、クリーンなバージョンを下流で使用するために作成することは、すべて Foundry データエンジニアリングの連続体の一部です。データ接続プロセスの詳細については、関連する製品ドキュメント を参照してください。

データセットと変換手順についてチームが合意したら、データアセットの開発を開始する時です。Pipeline Builder アプリケーションには、変換ロジックを設定し、プロダクションパイプライン の一部として新しいデータ変換を構築するためのツールが完全に統合されています。Foundry のアプリケーションはいくつかありますが、データセットを変換して出力できるものがあります(例: Code Repositories、Contour、Code Workbook、Preparation、Fusion)が、学習パスを通じて探求する理由により、プロダクションパイプラインは Pipeline Builder でのみ構築されるべきです。または、専門的なコードが必要な場合は、Code Repositories アプリケーションを使用してください。

⚠️ コースの前提条件

  • DATAENG 01 データパイプラインの基礎: このトラックの前のコースがまだ完了していない場合は、今すぐ完了してください。

アウトカム

前のチュートリアルでは、推奨されるパイプラインプロジェクト構造を実装する一連のフォルダーを作成しました。これから、Pipeline Builder アプリケーションを使用して、パイプライン内の最初のデータセットを生成します。

3つの生データセットから始めます。最初のデータセットには、フライトアラートに関するデータが含まれており、アラートのステータスと優先度を示す行が含まれています。生データの形式では、これら2つの行には数値のみが含まれており、マッピングテーブルとして機能する他の2つの生データセットを使用して文字列にマッピングする必要があります(例: データセット A の優先度「1」をデータセット B を使用して「High」に変換する必要があります)。 その後、Pipeline Builder を使用して、基本的な変換を使用してデータを正規化し、フォーマットします。生ファイル間のマッピングは行わず、まずはそれらをさらなるクリーニングと最終的な下流での結合のために前処理することが最初の目標です(後続のチュートリアルで行います)。

簡単に言えば、このトレーニングの入力は、上流ソースからのシミュレートされた生データセットであり、出力は次のチュートリアルでさらにクリーニングするためにフォーマットされた「前処理済み」データセットです。

🥅 学習の目的

  1. Pipeline Builder アプリケーションでパイプラインを開始する。
  2. データパイプライン開発における前処理とクリーニングの重要性を理解する。
  3. Pipeline Builder でデータを変換する練習をさらに行う。

💪 Foundry のスキル

  • Pipeline Builder を使用してパイプラインを作成する。
  • Pipeline Builder でデータを変換し、出力データセットを生成する。