注: 以下の翻訳の正確性は検証されていません。AIPを利用して英語版の原文から機械的に翻訳されたものです。
増分パイプラインは、時間経過により大きく変化する入力データセットを処理するためによく使われます。変更されていないすべての行やファイルのデータに対して不必要に計算を行うことを避けることで、増分パイプラインはエンドツーエンドの待ち時間を短縮しつつ、計算コストを最小限に抑えます。
しかし、増分パイプラインは追加の開発とメンテナンスの複雑さを伴うため、開始する前にこれを理解しておくべきです。
増分パイプラインに関連するいくつかの要素を考慮することがあります:
APPEND
トランザクションの形で到着する変更データのみを処理しますが、入力データセットがたまに再計算されることに対してロジックが堅牢である必要があります。これはSNAPSHOT
トランザクションの結果です。理想的には、この状況が実際に発生する前に、徹底的なunit testsで書かれた変換ロジックを検証するべきです。APPEND
トランザクションが適用されると、時間経過によりデータセットが大量の小さなファイルで構成されるようになることを理解する必要があります。これには、Sparkが大量のファイルをどのように処理し、これがSparkのパーティショニングにどのように影響するかを理解することも含まれます。増分パイプラインの高性能維持についてもっと読む。以下の推奨リソースを見直すことで、増分パイプラインを始めてみましょう: