データ統合パイプラインのビルドインクリメンタルパイプライン概要

注: 以下の翻訳の正確性は検証されていません。AIPを利用して英語版の原文から機械的に翻訳されたものです。

概要

増分パイプラインは、時間経過により大きく変化する入力データセットを処理するためによく使われます。変更されていないすべての行やファイルのデータに対して不必要に計算を行うことを避けることで、増分パイプラインはエンドツーエンドの待ち時間を短縮しつつ、計算コストを最小限に抑えます。

しかし、増分パイプラインは追加の開発とメンテナンスの複雑さを伴うため、開始する前にこれを理解しておくべきです。

背景

増分パイプラインに関連するいくつかの要素を考慮することがあります:

  • 増分パイプラインを開発するためには、Foundryでトランザクションを使用して、時間経過によるデータセットの変化の理解が必要です。データ接続の同期と変換ロジックのデータセットトランザクションの概念と対話することで、時間経過とともに増分パイプラインを効果的に作成し管理する必要があります。
  • Foundryでのトランザクションの動作を理解したら、入力データセットの予期しないトランザクションに対してパイプラインが堅牢になるように設計する必要があります。増分パイプラインは一般的に、APPENDトランザクションの形で到着する変更データのみを処理しますが、入力データセットがたまに再計算されることに対してロジックが堅牢である必要があります。これはSNAPSHOTトランザクションの結果です。理想的には、この状況が実際に発生する前に、徹底的なunit testsで書かれた変換ロジックを検証するべきです。
  • 増分パイプラインが長期間にわたってパフォーマンスを維持するためには、多くのAPPENDトランザクションが適用されると、時間経過によりデータセットが大量の小さなファイルで構成されるようになることを理解する必要があります。これには、Sparkが大量のファイルをどのように処理し、これがSparkのパーティショニングにどのように影響するかを理解することも含まれます。増分パイプラインの高性能維持についてもっと読む

はじめに

以下の推奨リソースを見直すことで、増分パイプラインを始めてみましょう: