1 - このコースについて

learn.palantir.com でも以下の内容をご覧いただけますが、アクセシビリティの観点から、ここに掲載しています。

コンテキスト

ドキュメンテーションは常に行うべきです。データパイプラインをサポートする Foundry のアプリケーションやプロジェクト構造は、ユーザーの現在および将来のチームに、ユーザーのデータ変換に関する関連事実を知らせるための十分な機会を提供します。データを事前処理した後は、それをクリーニングして下流での使用のために準備します。これは、透明な変換構文を意味するだけでなく、途中のすべてのステップの範囲とロジックをドキュメンテーションすることを意味します。

⚠️ コースの前提条件

DATAENG 02：このトラックの前のコースをまだ完了していない場合は、今すぐ行ってください。
Code Repositories を作成するための必要な権限。承認が必要な場合は、プログラム管理者または Palantir の担当者に連絡してください。
コードベースのデータ変換についての一般的な知識：このコースでは PySpark のコードスニペットを提供するため、PySpark 特有の知識は必要ありませんが、コード（例えば、SQL、Java、Python、R）を使ってデータを変換する使用方法について基本的な理解があると、概念的な利点が得られます。
Git ↗ のソースコード管理のワークフロー（ブランチングとマージング）についての一般的な知識は有用ですが、必須ではありません。

アウトカム

このチュートリアルでは、ユーザーのプロジェクトのための「クリーン」な出力をエンジニアリングし、それを下流のパイプラインとユースケースが消費できるようにします。実装するコードは、データ入力を変換するための一般的な PySpark の機能を利用します。チュートリアルの大部分では、PySpark のベストプラクティスについて詳しく説明する選択されたドキュメンテーションエントリーを探索する必要があります。ただし、PySpark の構文パターンを教えることは、このコースの範囲外であることを思い出してください。

🥅 学習の目的

前処理とクリーニングの違いを理解する。
ユーザーのパイプラインのデータソース段階をドキュメンテーションする。

💪 Foundry のスキル

複数の入力を持つ変換ファイルを作成する。
Contour を使用して提案されたデータ変換を検証する。
ユーザーのプロダクションパイプラインの Datasource プロジェクトセグメントのドキュメンテーションとして Data Lineage グラフを生成する。
ユーザーのコードリポジトリに README ファイルを生成する。