데이터 통합파이프라인 빌딩점진적 파이프라인전체보기

본 번역은 검증되지 않았습니다. AIP를 통해 영문원문으로부터 번역되었습니다.

전체보기

점진적 파이프라인은 시간이 지남에 따라 크게 변화하는 입력 데이터셋을 처리하는 데 종종 사용됩니다. 변경되지 않은 모든 행이나 파일의 데이터에 대해 불필요한 연산을 피함으로써, 점진적 파이프라인은 종단 간 지연을 줄이고 연산 비용을 최소화할 수 있습니다.

그러나 점진적 파이프라인은 시작하기 전에 알고 있어야 하는 추가적인 개발 및 유지 관리 복잡성을 가집니다.

배경

다음은 점진적 파이프라인과 관련된 몇 가지 요소를 고려하려면 다음을 참조하십시오:

  • 점진적 파이프라인 개발은 데이터를 Foundry에서 거래를 사용하여 시간이 지남에 따라 어떻게 변경되는지에 대한 철저한 이해가 필요합니다. 시간이 지남에 따라 점진적 파이프라인을 효과적으로 생성하고 관리하려면 Data Connection Sync 및 변환 로직에서 데이터셋 거래 개념과 상호 작용해야 합니다.
  • Foundry에서 거래가 어떻게 작동하는지 이해하면 입력 데이터셋에서 예기치 않은 거래에 대한 파이프라인을 견고하게 설계해야 합니다. 점진적 파이프라인은 일반적으로 APPEND 거래의 형태로 도착하는 변경된 데이터만 처리하지만 로직은 입력 데이터셋이 때때로 다시 계산되어 SNAPSHOT 거래가 발생하는 것에 견고해야 합니다. 이상적으로 변환 로직은 이를 실제로 처리하기 전에 동작을 검증하는 철저한 단위 테스트로 작성되어야 합니다.
  • 점진적 파이프라인이 장기적으로 성능을 유지하려면 많은 APPEND 거래가 적용될 때 시간이 지남에 따라 데이터셋이 어떻게 변경되는지 이해해야 합니다. 이로 인해 데이터셋은 작은 파일의 대량이 구성됩니다. 이는 Spark가 대량의 파일을 처리하는 방법과 이가 Spark 파티셔닝에 어떻게 영향을 미치는지 이해를 포함합니다. 점진적 파이프라인의 고성능 유지에 대한 자세한 정보를 참조하십시오.

시작하기

다음 권장 리소스를 검토하여 점진적 파이프라인 시작하기: