3. [Repositories] プロジェクト出力の作成15 - 重要なポイント

注: 以下の翻訳の正確性は検証されていません。AIPを利用して英語版の原文から機械的に翻訳されたものです。

15 - 重要なポイント

常にドキュメンテーションを行ってください。それがData Lineageアプリケーションで視覚的に、またはユーザーのプロジェクトのREADMEファイルやその他のテキストベースのリソースを使ってテキストで、あるいはインラインのコードコメントやコミットメッセージであれ、ユーザーのパイプラインのロジックと依存関係を丁寧に詳細に説明することで、迅速なトラブルシューティングが可能になり、保守の頭痛の種を防ぎます。

このチュートリアルでは、ユーザーは:

  1. ユーザーのパイプラインにPySparkを使用してユーザーの前処理済みファイルを結合し、使用可能な出力を生成するクリーニングステップを導入しました。
  2. 提案された変換を実行する前にContourでデータ品質を確認し、ユーザーの分析結果をユーザーのDatasourceプロジェクトに保存しました。
  3. ユーザーのパイプラインのデータソースステージのData Lineage表現を保存しました。
  4. ユーザーのコードリポジトリのREADMEファイルを使用してユーザーのパイプラインをドキュメンテーションしました。

以下は、このトレーニングの過程で使用された製品ドキュメンテーションのリストです:

今、ユーザーは生データからクリーンデータへのマルチノードフローを作成しましたので、次に、トランスフォームを順序通りに自動実行するスケジュールを生成する作業に移ります。パイプラインを適切にスケジューリングすることは、パイプライン監視の重要な部分であり、次のチュートリアルでは、推奨される構成でSchedulerアプリケーションを使用し、トラブルシューティングと保守活動を容易にするためのユーザーのパイプラインに関する文書を作成します。