점진적 파이프라인은 시간이 지남에 따라 크게 변화하는 입력 데이터셋을 처리하는 데 종종 사용됩니다. 변경되지 않은 모든 행이나 파일의 데이터에 대해 불필요한 연산을 피함으로써, 점진적 파이프라인은 종단 간 지연을 줄이고 연산 비용을 최소화할 수 있습니다.
그러나 점진적 파이프라인은 시작하기 전에 알고 있어야 하는 추가적인 개발 및 유지 관리 복잡성을 가집니다.
다음은 점진적 파이프라인과 관련된 몇 가지 요소를 고려하려면 다음을 참조하십시오:
APPEND
거래의 형태로 도착하는 변경된 데이터만 처리하지만 로직은 입력 데이터셋이 때때로 다시 계산되어 SNAPSHOT
거래가 발생하는 것에 견고해야 합니다. 이상적으로 변환 로직은 이를 실제로 처리하기 전에 동작을 검증하는 철저한 단위 테스트로 작성되어야 합니다.APPEND
거래가 적용될 때 시간이 지남에 따라 데이터셋이 어떻게 변경되는지 이해해야 합니다. 이로 인해 데이터셋은 작은 파일의 대량이 구성됩니다. 이는 Spark가 대량의 파일을 처리하는 방법과 이가 Spark 파티셔닝에 어떻게 영향을 미치는지 이해를 포함합니다. 점진적 파이프라인의 고성능 유지에 대한 자세한 정보를 참조하십시오.다음 권장 리소스를 검토하여 점진적 파이프라인 시작하기: