注: 以下の翻訳の正確性は検証されていません。AIPを利用して英語版の原文から機械的に翻訳されたものです。
データパイプラインを特定の間隔で、手動操作なしで実行する必要がある場合、スケジュールを設定してデータパイプラインを自動的に構築する必要があります。
クリーンなコードと良好なドキュメントに加えて、信頼性の高い製品データパイプラインには自動化されたスケジュールロジックが必要です。ただし、パイプライン内のビルドを単純に順次実行するのは、通常は賢明ではありません。データ変換の実行には Spark の計算が必要であるため、不要な高コストのリソース消費を避けるために、計画的に実行する必要があります。このチュートリアルでは、パイプラインスケジューラインターフェースを使用して、パイプラインスケジュールの入力と出力(「何」をビルドするか)と実行条件(「いつ」ビルドするか)を簡単に定義する方法を紹介します。
パイプライン(またはパイプライン内のステージ)が構築され、スケジュールされ(そして監視が適用される。これは後のチュートリアルで取り上げられる)、プロジェクト内で実行ロジックやその他の重要なパイプライン機能についてドキュメント化することを強くお勧めします。
DATAENG 03:このトラックの前のコースをまだ完了していない場合は、今すぐ行ってください。
このチュートリアルでは、自動化されたデータパイプラインスケジュールの作成に関する基本とベストプラクティスを伝えることを目的としています。Foundry のスケジューラアプリケーションは、パイプライン設定を直感的なインターフェースに抽象化し、データの新鮮さの SLA を維持し、Spark 計算リソースの無駄を最小限に抑える実行条件を設定できるようにします。
パイプラインをスケジュールした後、Datasource Project ステージの機能に関するドキュメントを追加する機会があります。パイプラインロジック、SLA、メンテナンス手順、トラブルシューティング履歴に関する説明的なドキュメントは、エントロピーに対する予防策として価値があり、プロジェクトの長期的なメンテナンス性を向上させます。