注: 以下の翻訳の正確性は検証されていません。AIPを利用して英語版の原文から機械的に翻訳されたものです。
learn.palantir.com ↗ でも以下の内容をご覧いただけますが、アクセシビリティの観点から、ここに掲載しています。
データパイプラインが特定の間隔で、手動介入なしに実行する必要がある場合、スケジュールを設定してデータパイプラインを自動的にビルドするように設定するべきです。
クリーンなコードと良好なドキュメンテーションに加えて、信頼性の高いプロダクトデータパイプラインには自動化されたスケジュールロジックが必要です。ただし、パイプラインのビルドを単純に順番に強制的に行うのは賢明ではありません。データ変換の実行にはSparkの計算が必要なため、無駄に高価なリソースを消費することを避けるために、計画的に行うべきです。このチュートリアルでは、パイプラインスケジューラーのインターフェースを使用すると、パイプラインスケジュールの入力と出力(「何」をビルドするか)と実行条件(「いつ」ビルドするか)を簡単に定義することができることを示します。
パイプライン(またはパイプラインのステージ)がビルドされ、スケジュールされ(そして監視が適用され、これは後のチュートリアルで取り扱います)たら、プロジェクト内で実行ロジックや他の重要なパイプライン特徴についてドキュメント化することを強く推奨します。
DATAENG 03: このトラックの前のコースをまだ完了していない場合は、今すぐ行ってください。
このチュートリアルでは、自動化されたデータパイプラインスケジュールを作成するための基本とベストプラクティスを伝えることを目指しています。Foundry の Scheduler アプリケーションは、パイプライン設定を直感的なインターフェースに抽象化し、データの新鮮さの SLA を維持し、Spark 計算リソースの無駄遣いのリスクを最小化するための実行条件を設定することができます。
パイプラインのスケジューリングが終わった後は、Datasource Project ステージの特徴についてドキュメンテーションを追加する機会があります。パイプラインロジック、SLA、メンテナンス手順、トラブルシューティングの履歴についての詳細なドキュメンテーションは、エントロピーに対する有力な予防策であり、プロジェクトの長期的なメンテナンス性を向上させます。