3. [Repositories] Creating a Project Output15 - 重要なポイント
Warning

注: 以下の翻訳の正確性は検証されていません。AIPを利用して英語版の原文から機械的に翻訳されたものです。

15 - 重要なポイント

learn.palantir.com ↗ でも以下の内容をご覧いただけますが、アクセシビリティの観点から、ここに掲載しています。

常にドキュメンテーションを作成してください。Data Lineage アプリケーションで視覚的に、プロジェクト内の README ファイルやその他のテキストベースのリソースでテキストとして、またはインラインのコードコメントやコミットメッセージで、パイプラインのロジックと依存関係を丁寧に詳細に説明することで、迅速なトラブルシューティングを促進し、メンテナンスの頭痛の種を防ぎます。

このチュートリアルでは、以下のことを行いました:

  1. PySpark を使用してユーザーの前処理済みファイルを結合し、使用可能な出力を生成するクリーニングステップをユーザーのパイプラインに導入しました。
  2. 提案された変換を実行する前に Contour でデータ品質を確認し、ユーザーの Datasource プロジェクトに分析結果を保存しました。
  3. ユーザーのパイプラインのデータソースステージの Data Lineage 表現を保存しました。
  4. ユーザーのコードリポジトリにある README ファイルを使用してユーザーのパイプラインを文書化しました。

以下は、このトレーニングの過程で使用された製品のドキュメンテーションの一覧です:

ユーザーが生データからクリーンデータへのマルチノードフローを作成したので、次に、変換を順番に自動的に実行するスケジュールを生成する作業に取り組みます。パイプラインのスケジューリングはパイプライン監視の重要な部分であり、次のチュートリアルでは、推奨される設定で Scheduler アプリケーションを使用し、トラブルシューティングとメンテナンス活動を容易にするためのパイプラインに関する書面のドキュメンテーションを作成します。