2. [Repositories] Introduction to Data Transformations18 - 重要なポイント
Warning

注: 以下の翻訳の正確性は検証されていません。AIPを利用して英語版の原文から機械的に翻訳されたものです。

18 - 重要なポイント

learn.palantir.com でも以下の内容をご覧いただけますが、アクセシビリティの観点から、ここに掲載しています。

パイプラインの各段階でのコードの適切な管理と効率的な使用は、保守性を大幅に向上させます。データセットと行名の一貫性があると、組織内の他の人がトランスフォームコードにアクセスしやすくなり、出力を他のデータアセットにより簡単に結合できるようになります。ユーザー定義関数(例:クリーニングやフォーマットのための関数)が必要な場合は、それらを1回書いてインポートステートメントで参照することで、コードベースをシンプルで理解しやすく保ちます。

このチュートリアルでは、以下のことを行いました:

  1. Python コードリポジトリを設定し、Git ワークフローを練習しました。
  2. アイデンティティ変換を使用してデータセットのコピーを作成しました。
  3. データのフォーマットと更新のためのユーティリティ関数を構築し、トランスフォームファイルでそれらの関数を参照しました。
  4. ソースデータの生バージョンと処理されたバージョンを生成し、後続のクリーニングの準備をしました。

以下は、このトレーニングで使用された製品ドキュメントのリストです:

パイプラインの前処理段階では、データセットがより実質的でポリシーベースのクリーニングステップに備えるために準備されます。これにより、組織全体でより広く使用できるデータセットが生成されます。次のチュートリアルでは、パイプラインをクリーニングフェーズに進めるだけでなく、Foundry でデータを変換するための新たなベストプラクティスや手法を紹介します。