본 번역은 검증되지 않았습니다. AIP를 통해 영문원문으로부터 번역되었습니다.

배치 입력 데이터 세트를 위한 계산 모드

입력 데이터 세트를 스냅샷 또는 점진적으로 읽을지 선택할 수 있습니다. 사용 사례에 따라 다릅니다.

스냅샷 계산

스냅샷 계산은 새로 추가된 데이터뿐만 아니라 전체 입력에 대해 변환을 수행합니다. 결과물 데이터 세트는 매 빌드마다 최신 파이프라인 결과물로 완전히 대체됩니다.

스냅샷 계산의 예

다음 경우에 사용하기에 가장 적합합니다:

  • 입력 데이터 세트가 APPEND 트랜잭션을 통해 업데이트되지 않습니다.
    • 입력이 SNAPSHOT 트랜잭션을 사용하여 작성된 경우, 입력을 점진적으로 읽을 수 없습니다.
  • 결과물 데이터 세트가 APPEND 트랜잭션을 통해 업데이트할 수 없습니다.
    • 예: 전체 결과물 데이터 세트가 각 실행마다 변경되어 스냅샷 결과물이 필요합니다.
  • 입력 데이터 세트가 작습니다.
    • 이 경우 스냅샷 계산은 점진적 계산과 비슷한 효율을 가집니다.

점진적 계산

점진적 계산은 마지막 빌드 이후 선택된 입력에 추가된 새 데이터에 대해서만 변환을 수행합니다. 이렇게 하면 컴퓨팅 리소스가 줄어들 수 있지만 중요한 제한 사항이 함께 따릅니다.

파이프라인은 선택한 입력 데이터 세트가 기존 파일을 수정하지 않는 APPEND 또는 UPDATE 트랜잭션을 통해 변경되는 경우에만 점진적 계산으로 실행됩니다. 스냅샷 입력을 점진적으로 표시하면 아무런 영향이 없습니다.

점진적 계산의 예

다음 경우에 사용하기에 가장 적합합니다:

  • 입력 데이터 세트가 APPEND 트랜잭션 또는 가산 UPDATE 트랜잭션을 통해 변경됩니다.
    • 이는 이전 결과물이 동일하게 유지되면서 새 데이터가 추가된다는 것을 나타냅니다. 점진적 계산은 각 빌드에서 처리되는 데이터 양을 줄입니다.
  • 이전 결과물을 참조할 필요가 없습니다.
  • 입력 데이터 세트가 크고 자주 새로운 데이터가 추가됩니다.
    • 점진적 빌드는 컴퓨팅 리소스와 시간을 절약하고 성능 향상을 가져올 수 있습니다.

점진적 계산 제한

이 섹션에서는 워크플로에 적용할 수 있는 제한 사항을 설명합니다. 점진적 계산 설정 전에 검토하여 적절한 구현을 보장하세요.

  • 조인: 점진적 데이터 세트가 포함된 조인에서 점진적 데이터 세트는 왼쪽에, 스냅샷 데이터 세트는 오른쪽에 있어야 합니다. 두 점진적 데이터 세트 간의 조인은 현재 지원되지 않습니다.
    • 조인에서 스냅샷 입력: 스냅샷 입력이 새로운 트랜잭션을 받으면 점진적 데이터 세트를 포함하는 하위 스트림 조인도 계속해서 점진적으로 실행됩니다. Pipeline Builder는 조인의 오른쪽에 있는 스냅샷 입력의 변경을 사용하여 파이프라인의 리플레이를 강제하는 것을 지원하지 않습니다.
  • 유니온: 유니온에 대한 모든 입력은 동일한 계산 모드를 사용해야 합니다(모두 스냅샷 또는 모두 점진적).
  • 변환: 이전 결과물을 변경할 수 있는 변환은 현재 트랜잭션으로만 제한됩니다. 윈도우 함수, 집계, 피봇은 이전 결과물이 아닌 현재 데이터 트랜잭션에만 적용됩니다.
  • 리플레이: 파이프라인 로직이 변경되어 이전에 처리된 입력 트랜잭션에 새 로직을 적용하려는 경우, 배포 시 리플레이를 선택할 수 있습니다. 전체 입력에 대한 리플레이만 지원됩니다.

자세한 내용은 Pipeline Builder에서의 점진적 계산 예제를 참조하세요.