Pipeline Builder는 Foundry에서 데이터를 변환하기 위한 유연하고 강력하며 사용하기 쉬운 인터페이스를 제공합니다. 기존 도구(예를 들어, Spark나 SQL)에서 데이터 변환을 작성하는 것은 비코더와 경험 많은 소프트웨어 개발자 모두에게 어려움과 오류가 발생하기 쉬울 수 있습니다. 또한, 기존 도구는 종종 한 가지 특정 실행 엔진에 결합되어 있고, 데이터 변환을 표현하기 위해 코드 라이브러리를 사용하는 것을 필요로 합니다.
Pipeline Builder는 데이터 변환을 설명하기 위한 일반 모델을 사용합니다. 이 백엔드는 변환을 작성하는데 사용되는 도구와 해당 변환의 실행 사이의 중간 레이어입니다.
Pipeline Builder의 기본 아키텍처는 모든 종류의 결과물 - 데이터셋, 온톨로지 오브젝트, 스트림, 시계열, 외부 시스템으로의 내보내기 - 을 지원하도록 설계되었습니다. 데이터셋, 오브젝트 유형, 링크 유형, 또는 스트리밍 데이터셋에 해당하는 스트리밍 파이프라인에 대해 배치 파이프라인을 실행할 수 있습니다.
Pipeline Builder에서는 두 가지 유형의 데이터 변환을 사용할 수 있습니다: 표현식과 변환. 표현식은 표에서 열을 입력으로 가져와서 단일 열을 결과물로 내보냅니다(예를 들어 Split string
), 반면에 변환은 전체 표를 입력으로 가져와서 전체 표를 반환합니다(예를 들어, Pivot
또는 Filter
).
우리는 표현식과 변환을 같은 설정 인터페이스에서 함께 그룹화합니다. 예를 들어, Drop columns
변환을 Cast
및 Concatenate strings
와 같은 표현식 옆에서 찾을 수 있습니다. 이를 통해 같은 경로에서 표현식과 변환을 함께 사용하고, 아래에 나타난대로 Filter
변환 내에 Length
표현식을 삽입함으로써 한 설정 양식 내에 표현식을 내장할 수 있습니다.
다른 데이터 구조화 변환, 즉 Join 및 Union은 자체 설정 패널을 가지고 있으며 Pipeline Builder 인터페이스에서 고유 아이콘으로 표시됩니다.
간단함을 위해, 우리는 일반적으로 모든 유형의 데이터 변환을 변환으로 참조합니다.
조인은 적어도 하나의 일치하는 열을 가진 두 데이터셋을 결합합니다. 설정하는 조인의 유형에 따라, 조인 결과물은 일치하는 행을 결합하고 일치하지 않는 행을 제외할 수 있습니다.
유니온은 모든 행을 포함하도록 두 데이터셋을 결합합니다.
유니온 변환은 모든 입력이 동일한 스키마를 가지도록 요구합니다. 입력 스키마가 모두 일치하지 않는 경우, 유니온은 누락된 열의 목록과 함께 오류 메시지를 표시할 것입니다.
기존 변환 옵션으로 데이터를 조작할 수 없거나, 외부 Java 라이브러리를 포함시키고 싶거나, 파이프라인 간에 재사용하고 싶은 복잡한 로직이 있는 경우, 자신만의 사용자 정의 함수(UDF)를 생성할 수 있습니다. 사용자 정의 함수는 버전을 지정하고 업그레이드할 수 있는 Pipeline Builder 내에서 자신만의 임의의 Java 코드를 실행할 수 있게 해줍니다.
사용자 정의 함수는 필요할 때만 사용해야 합니다. 가능한 경우 Pipeline Builder 내의 최적화된 변환 보드를 사용하는 것을 권장합니다.
파이프라인 워크플로에 변환 추가하기 방법을 배워보세요.