Foundry에는 데이터 파이프라인 작성 및 관리를 위한 두 가지 제품이 있습니다: Pipeline Builder와 Code Repositories. 이 두 도구는 서로 보완적이며, 모든 파이프라인 작업을 위한 솔루션을 제공하기 위해 함께 작동하도록 구축되었습니다. 아래 가이드는 어떤 도구가 귀하의 유즈케이스에 가장 적합한지 결정하는 데 도움이 되도록 제작되었습니다.
Pipeline Builder는 Foundry의 주요 애플리케이션으로, 강력하고 안전한 데이터 파이프라인을 빠르고 유연하게 제공하면서 확장성을 제공합니다. Pipeline Builder를 사용하면 최종 사용자와 데이터 엔지니어는 데이터 통합, 비즈니스 로직 변환을 생성하고 생산 파이프라인에 대한 엄격한 릴리스 프로세스를 정의하는 그래프 및 양식 기반 환경에서 협업할 수 있습니다. 사용자는 코드를 사용하지 않고 실시간 피드백을 제공하는 파이프라인을 작성할 수 있습니다. 또한, Pipeline Builder는 완전히 준수하는 데이터만 프로덕션에 배포되도록 보장하는 헬스 체크를 사용합니다. Pipeline Builder에 대해 더 알아보기.
Code Repositories는 Foundry에서 프로덕션 준비 코드를 작성하고 협업하기 위한 웹 기반 통합 개발 환경(IDE)을 제공합니다. 이 애플리케이션은 기본 Git repository와 상호 작용하는 사용자 친화적인 방법을 제공합니다. Code Repositories에 대해 더 알아보기.
파이프라인 설계를 Pipeline Builder에서 구축하는 것을 추천합니다. 그러면 다음과 같은 이점이 있습니다:
사용자가 Pipeline Builder에서 사용할 수 없는 특수한 코드 기반 로직을 필요로 하는 경우, Code Repositories를 사용하여 그러한 단계를 메인 파이프라인에 추가해야 합니다. 이러한 특수한 경우의 예는 다음과 같습니다:
Pipeline Builder와 Code Repositories 모두 Foundry 데이터셋을 입력값 및 결과물로 사용하므로, Code Repositories에서 빌드한 파이프라인 입력값은 Pipeline Builder의 파이프라인 앞, 뒤, 중간에 추가할 수 있습니다. 파이프라인을 생성하는 데 사용된 애플리케이션에 관계없이, Data Lineage에서 전체 파이프라인에 대한 일정 및 헬스 체크를 설정할 수 있습니다. Data Lineage에 대해 더 알아보기.
다음 표는 Pipeline Builder와 Code Repositories에서 사용 가능한 기능 및 지원을 설명합니다. 위에서 설명한 것처럼, 두 도구를 함께 사용하면 특수한 코드 기반 로직이 있는 강력하고 타입-안전한, 재사용 가능한 파이프라인을 생성할 수 있습니다.
Pipeline Builder | Code Repositories | |
---|---|---|
추천 사용 | 조직 및 조직 간 협업을 위한 특수 파이프라인에 대한 프로덕션 파이프라인 빌드 및 유지보수. | 파이프라인에 추가할 특수한 코드 기반 데이터 변환 생성. |
빌드 인터페이스 | ||
파이프라인 인터페이스 | 그래프 및 양식 기반 | 웹 기반 통합 개발 환경 (IDE) |
지원되는 언어 | 코드 필요 없음 | Python, SQL, Java, Mesa |
재사용성 | 완전한 파이프라인 또는 파이프라인 단계를 복사하고 붙여넣기. | 유틸리티 함수 및 라이브러리 재사용, 파일 간 코드 복사. |
타입-안전 함수 | 강력한 타입; 에러는 빌드 시간이 아닌 즉시 플래그됩니다. | 코드 기반; 빌드 시간에 에러가 표면화됩니다. |
파라미터 | 파이프라인 전체에서 사용할 수 있는 사용자 정의 지속 파라미터. | 저장소에서 사용할 수 있는 코드 정의 상수. |
지원되는 파이프라인 | ||
배치 파이프라인 | 예 | 예 |
스트리밍 파이프라인 | 예 | 예 (고급 사용자를 위한) |
파일 기반 변환 | 예 | 예 |
점진적 계산 | 예 | 예 |
파일 시스템 및 API 접근 | 아니오 | 예 |
파이프라인 테스트 | ||
데이터 미리보기 범위 | 전체 데이터셋을 기반으로 미리보기. | 데이터 샘플 미리보기. |
데이터 미리보기 타임라인 | 실시간으로 미리보기 업데이트. | 요청 시 미리보기. |
데이터 미리보기 체크포인트 | 각 변환 단계 미리보기. | 디버그 모드에서 선택한 체크포인트에서 중간 데이터 프레임 및 변수 미리보기. |
디버그 | 타입 안전; 에러는 파이프라인을 생성하는 동안 발생하며 디버그를 위해 체크 또는 빌드를 요구하지 않습니다. | 디버거 및 Read-Eval-Print Loop (REPL) 지원. |
단위 테스트 | 아니오 | 예 (고급 사용자를 위한) |
파이프라인 관리 | ||
데이터 기대치 | 예 | 예 |
일정 | 예 | 예 |
커스텀 라이브러리 게시 | 아니오 | 예 |
버전 관리 | 코드 없는/높은 코드 사용자 협업을 위한 전체 버전 관리 워크플로우. | 전체 Git 워크플로우. |
빌드 메모리 관리 | 사용자는 승인된 컴퓨트 프로필을 설정할 수 있습니다. | 코드 기반 설정 가능. |
보안 마킹 관리 | 개발 중 | 예 |