ドキュメントの検索
karat

+

K

APIリファレンス ↗
3. [Repositories] プロジェクト出力の作成1 - このコースについて
Feedback

注: 以下の翻訳の正確性は検証されていません。AIPを利用して英語版の原文から機械的に翻訳されたものです。

1 - このコースについて

コンテキスト

ドキュメンテーションは常に重要です。Foundry のアプリケーションとデータパイプラインをサポートするプロジェクト構造は、ユーザーの現在と未来のチームに、データ変換に関する関連事項を伝えるための十分な機会を提供します。データを前処理した後は、それをクリーニングし、下流での使用のために準備する時期になりました。これは、厳密な変換構文だけでなく、途中のスコープとロジックを文書化することを意味します。

⚠️ コースの前提条件

  • DATAENG 02:このトラックの前のコースをまだ完了していない場合は、今すぐ行ってください。
  • コードリポジトリを作成するための必要な許可。認証が必要な場合は、プログラム管理者または Palantir の担当者に連絡してください。
  • コードベースのデータ変換について一般的な知識:このコースでは PySpark のコードスニペットを提供するため、PySpark 固有の知識は必要ありませんが、コード(例:SQL、Java、Python、R)を使ったデータ変換の基本的な理解があれば、概念的なアドバンテージを提供します。
  • Gitでのソースコード管理ワークフロー(ブランチ作成とマージ)についての一般的な知識は役立つが必須ではありません。

アウトカム

このチュートリアルでは、ユーザーのプロジェクトのための「クリーン」な出力をエンジニアリングし、下流のパイプラインとユースケースに消費させます。実装するコードは、データ入力を変換するための一般的な PySpark の機能を利用し、チュートリアルの大部分では、PySpark のベストプラクティスを詳述する選択されたドキュメンテーションエントリを探索することが求められます。ただし、PySpark の構文パターンを教えることは、このコースの範囲外であることを念のために述べておきます。

🥅 学習の目的

  1. 前処理とクリーニングの違いを理解する。
  2. パイプラインのデータソースステージを文書化する。

💪 Foundry のスキル

  • 複数の入力を持つ変換ファイルを作成する。
  • Contour を使用して提案されたデータ変換を検証する。
  • ユーザーのプロダクションパイプラインの Datasource プロジェクトセグメントのドキュメンテーションとして、Data Lineage グラフを生成する。
  • コードリポジトリ内に README ファイルを生成する。