注: 以下の翻訳の正確性は検証されていません。AIPを利用して英語版の原文から機械的に翻訳されたものです。
learn.palantir.com でも以下の内容をご覧いただけますが、アクセシビリティの観点から、ここに掲載しています。learn.palantir.com
現在、データエンジニアリングのトレーニングのルートは、データ取り込みプロセスが終了するところから始まります。これは、仮想の上流ソースからコピーされた一連の生データセットを持っています。ユーザーの Foundry 環境には、これらの生データセットが用意されており、便宜上、これを出発点として採用します。実際には、データ接続プロセスを経て生データセットを収集し、それらのデータセットを下流で使用するための前処理済みおよびクリーニング済みバージョンを作成することは、Foundry データエンジニアリングの連続体の一部です。データ接続プロセスの詳細については、関連する製品ドキュメントを参照してください。
チームがデータセットと変換手順について合意したら、Foundry のコードリポジトリでデータアセットの開発を開始する時が来ました。Code Repository アプリケーションには、本番パイプラインの一部としてデータ変換を作成、公開、ビルドできる完全に統合されたツールスイートが含まれています。Foundry には、データセットを変換して出力できるアプリケーションがいくつかあります(例:Contour、Code Workbook、Preparation、Fusion)。しかし、このルートを通じて詳しく説明する理由から、本番パイプラインは Code Repositories アプリケーションまたは Pipeline Builder アプリケーションのいずれかでのみ構築する必要があります。また、Pipeline Builder を使用した同じチュートリアルも利用できることに注意してください。
前のチュートリアルでは、推奨されるパイプラインプロジェクト構造を実装する一連のフォルダーを作成しました。今度は、Code Repositories アプリケーションを使用して、パイプラインの最初のデータセットを生成します。
トレーニングの利便性のために、前のチュートリアルで構築したDatasource Projectに、最初の生データセットのコピーを作成することから始めます。3つの生データセットを扱います。最初のデータセットには、フライトアラートに関するデータが含まれており、アラートのステータスと優先度を示す行が含まれています。これらの2つの行は、生のままでは数値のみが含まれており、マッピングテーブルとして機能する他の2つの生データセットを使用して文字列にマップする必要があります(例:データセット A の優先度「1」をデータセット B を使用して「High」に変換する)。
次に、PySpark を使用して、基本的なクリーニングユーティリティを使用してデータを正規化および書式設定します。生のファイル間のマッピングは行わず、まずはそれらをさらなるクリーニングと最終的な結合のために事前処理するだけです(次のチュートリアルで行います)。 要するに、このトレーニングの入力は、上流ソースからのシミュレートされた生データセットであり、出力は、次のチュートリアルでさらにクリーニングするためにフォーマットされた「事前処理済み」データセットです。