데이터 통합Pipeline Builder개요

개요

Pipeline Builder는 Foundry의 주요 데이터 통합 애플리케이션입니다. Pipeline Builder를 사용하여 원시 데이터 소스를 분석을 위한 깨끗한 결과물로 변환하는 데이터 통합 파이프라인을 빌드할 수 있습니다.

Pipeline Builder와 강력한 백엔드 모델을 사용하면 코드를 사용하는 사용자와 그렇지 않은 사용자 모두 파이프라인 워크플로에서 함께 협업할 수 있습니다. 사용자는 길고 복잡한 Health check이 필요한 코드를 작성하는 대신 Pipeline Builder를 사용하여 간소화된 빌더 인터페이스를 통해 데이터 변환을 적용할 수 있습니다.

Pipeline Builder는 로직 생성과 실행 사이에서 중개자 역할을 하도록 특별히 설계된 차세대 데이터 변환 백엔드를 사용합니다. 사용자가 빌드하려는 파이프라인을 설명하면 백엔드는 변환 코드를 작성하고 파이프라인 무결성을 검사하여 리팩터링 오류를 식별하고 건강한 빌드를 보장하기 위한 해결책을 제공합니다. 백엔드가 로직 생성과 실행 사이의 중간 레이어로 작용하면 사용자는 파이프라인이 빌드되기 전에 스키마 문제를 해결하고 계산 및 코드 검사에 소비되었던 시간을 절약할 수 있습니다.

파이프라인 스크린샷

기능

Pipeline Builder에는 포괄적인 파이프라인 생성, 유지 및 제어에 중점을 둔 기능이 포함되어 있습니다.

  • 직관적인 사용자 인터페이스: 사용자는 조인 키와 열 캐스팅 제안 등 피드백을 제공하는 그래프 및 양식 기반 인터페이스를 사용하여 파이프라인을 작성합니다.
  • Type-safe 함수: 함수는 타입 인식형으로 빌드 타임이 아니라 오류 발생 즉시 이를 플래그할 수 있습니다.
  • 엄격한 결과물 검사: 기대되는 결과물 검사를 충족하지 않으면 예상하지 못한 다운스트림 영향을 예방하기 위해 빌드가 차단됩니다.
  • 자동 빌드 경로 가지치기: Pipeline Builder는 결과물에 연결되지 않은 변환 경로를 '가지치기'하여 빌드에서 불필요한 계산을 피합니다.
  • 추상적 구현 세부 사항: 사용자는 end-to-end 파이프라인 및 원하는 결과물을 설명하는데 집중할 수 있습니다. 빌드, 동기화 및 기타 오케스트레이션은 Pipeline Builder 백엔드에서 자동으로 처리되기 때문입니다.
  • 독립적인 파이프라인 로직: Pipeline Builder는 Spark, Flink, Azure 인스턴스 등 다양한 로직 실행 엔진에 연결할 수 있습니다.
  • 재사용성: 파이프라인 로직을 쉽게 추출하여 다양한 파이프라인에 재사용할 수 있습니다.
  • 완전한 버전 관리: 사용자는 파이프라인을 별도로 초안으로 작성하거나 하나의 파이프라인에서 협업하거나 이전 버전으로 되돌릴 수 있습니다.
  • 스트리밍 기능: Pipeline Builder는 실시간 레이턴시를 가지는 파이프라인을 생성할 수 있는 기능을 제공합니다. 이 기능을 모든 Foundry 환경에서 사용할 수 있는 것은 아닙니다. 스트리밍 파이프라인이 필요한 워크플로우의 경우 Palantir 담당자에게 문의하십시오.

워크플로우

Pipeline Builder는 데이터를 가져오는 것부터 건강한 빌드를 구축하는 것까지 다음 단계로 구성된 워크플로우를 따릅니다.

  • 입력값: 새 데이터 소스를 추가하거나 추가 데이터 세트를 추가합니다.
  • 변환: 원하는 결과물을 향해 데이터를 변환, 조인, 또는 합칩니다.
  • 미리보기: 변환을 적용한 후 결과물을 미리 봅니다.
  • 구축: 파이프라인이 완료되면 파이프라인 결과물을 빌드합니다.
  • 결과물: 파이프라인에 오브젝트 유형, 링크 유형, 또는 데이터 세트 결과물을 추가합니다.

파이프라인 스크린샷

Pipeline Builder 그래프에서 시각화하면 다음과 같습니다.

여러 단계를 나타내는 분리된 열이 있는 파이프라인 스크린샷

간단한 배치 파이프라인을 생성하는 방법을 알아보려면 여기를 참조하거나, Pipeline Builder에서 파이프라인을 구축하고 관리하는 핵심 개념에 대해 자세히 알아보십시오.