데이터 통합파이프라인 빌딩개요

본 번역은 검증되지 않았습니다. AIP를 통해 영문원문으로부터 번역되었습니다.

개요

데이터 파이프라인을 생성하는 첫 단계는 조직의 데이터 소스를 Foundry에 연결하고 데이터가 시스템을 통해 흐르도록 하는 것입니다. 초기에는 데이터가 고품질이며 유즈케이스 개발, 모델 개발 및 분석을 위한 신뢰할 수 있는 기반을 제공할 수 있는지 확인하는 것에 중점을 두어야 합니다.

이 문서 섹션은 파이프라인을 생성하는 초기 단계에 중점을 두고 있으며, 이 시점에서는 비즈니스 요구 사항이 여전히 변동 중일 수 있고 파이프라인 로직에 자주 변경이 발생할 수 있습니다. 이 단계에서는 목표 유즈케이스를 지원하고 미래의 파이프라인 유지 관리를 가능하게 하는 견고한 기반을 마련하는 데 중점을 두어야 합니다.

초기 단계

대부분의 경우, 파이프라인 개발에서 다음 초기 단계를 따를 것을 권장합니다:

  • 권장 프로젝트 구조를 설정하여 개발 프로세스 시작부터 데이터 보안 및 거버넌스가 구성되도록 합니다.
  • Pipeline Builder 또는 Code Repositories에서 배치 파이프라인을 생성하여 입력 데이터셋을 처리하고, 데이터 클리닝 및 필터링을 수행하며, 다른 데이터셋과 결합하여 온톨로지에 통합되어 워크플로 개발을 지원할 수 있는 고품질 데이터셋을 생성합니다.
  • 최종 데이터셋을 온톨로지의 오브젝트 유형링크 유형으로 매핑합니다.
  • 일정을 설정하여 데이터가 정기적으로 흐르도록 합니다.

이 단계를 넘어서, 단위 테스트 추가, 브랜치 및 릴리즈 프로세스 설정, 건강 검사 정의 등 다양한 단계를 거쳐 파이프라인을 보다 견고하고 확장 가능하게 만들 수 있습니다. 파이프라인 개발에 대한 모범 사례 알아보기.

점진적 파이프라인

파이프라인으로 들어오는 입력 데이터의 변경 규모가 큰 경우, 변경된 데이터를 성능 있게 처리하기 위해 점진적 파이프라인을 생성하는 것이 좋습니다. 대부분의 경우, 배치 파이프라인으로 시작한 다음 성능 향상 및 지연 시간 감소를 위해 점진적 파이프라인을 구축할 수 있습니다.

일부 경우에는 특히 파이프라인으로 들어오는 새 데이터의 규모가 매우 큰 경우, 처음부터 점진적으로 파이프라인을 설계하는 것이 바람직합니다. 그러나 점진적 파이프라인 작성 및 유지 관리는 배치 파이프라인보다 복잡성이 훨씬 더 높습니다. Foundry의 다양한 파이프라인 유형에 대해 자세히 알아보기.

스트리밍 파이프라인

데이터 지연 요구 사항이 매우 낮은 경우, 입력 데이터를 성능 있게 처리하기 위해 스트리밍 파이프라인을 생성하는 것이 좋습니다. 스트리밍 파이프라인은 가장 느린 구성 요소만큼 빠르기 때문에 파이프라인을 처음부터 설계하여 대상 지연 시간과 처리량을 달성할 것을 보장해야 합니다. 더 상세한 분석을 위해 스트리밍 대 배치 프로세스의 비교를 검토해 보세요.