Pipeline Builder에서 데이터셋 결과물을 추가하여 깨끗하고 변환된 데이터로의 파이프라인 통합을 안내할 수 있습니다. 다른 결과물 유형에 대해 더 알아보기.
우선, 그래프 오른쪽의 결과물 패널에서 데이터셋 유형 옆에 있는 추가하기를 클릭합니다.
이제 새로운 결과물 데이터셋을 생성했습니다. 파이프라인이 처음 빌드된 후, 결과물 데이터셋은 파이프라인과 같은 폴더에서 생성됩니다. 예를 들어, Demo Pipeline의 Vendor
데이터셋 결과물은 다음과 같은 파일 경로를 가질 것입니다: /Palantir/Pipeline Builder/Demo Pipeline/Vendor
.
결과물 데이터셋의 이름을 변경하려면 이름 필드를 클릭합니다. 열 추가하기를 선택하여 수동으로 결과물 스키마에 열을 추가하거나, 변환 노드를 연결하여 업데이트된 스키마 사용하기로 그것의 결과물 스키마를 사용합니다.
결과물 스키마를 추가한 후, 열 검색하기... 필드를 사용하여 데이터셋 내의 열을 빠르게 찾습니다. 결과물 스키마의 오류만 보려면 오류만 표시하기 버튼을 토글합니다.
결과물 데이터셋을 추가한 후, 모든 결과물로 돌아가기를 클릭하여 파이프라인의 모든 결과물 목록을 보기. 각 결과물의 상태를 한눈에 파악하고, 결과물 스키마가 입력 변환 노드 스키마와 일치하는지 확인하기. 아래의 세 개의 결과물은 결과물 스키마가 가질 수 있는 다른 상태들을 나타냅니다:
편집하기를 클릭하여 결과물 스키마를 언제든지 업데이트할 수 있습니다.
데이터셋 스키마에 대해 더 알아보기 데이터 통합.
스키마 설정 외에도, 각 개별 결과물은 사용자 지정이 가능한 다양한 기본 설정을 가지고 있습니다.
결과물 데이터셋에 기대치를 추가하여 파이프라인 안정성을 강화합니다. 파이프라인 빌드 중에 어떤 검사가 실패하면 빌드가 실패합니다.
향후 배포에서 데이터셋 결과물에 어떻게 데이터가 추가되는지 정의합니다.
기본: 결과물을 SNAPSHOT
트랜잭션으로 출력합니다. SNAPSHOT
트랜잭션에 대해 더 알아보기.
항상 행 추가하기: 결과물을 APPEND
트랜잭션으로 출력하여, 기존의 결과물 데이터셋에 행이 추가됩니다. APPEND
트랜잭션에 대해 더 알아보기.
새로운 행만 추가하기: 결과물을 APPEND
트랜잭션으로 출력하되, 새로 보게 된 기본 키를 가진 새로운 행만 출력에 추가됩니다. 현재 트랜잭션 내에 중복 행이 있다면 무작위로 하나가 삭제됩니다. 이전 출력에 존재하는 기본 키를 가진 행은 삭제됩니다.
변경 로그: Object Storage v1에서만 사용 가능. 모든 레코드의 변경 내역을 포함하는 일련의 APPEND
트랜잭션을 출력합니다. 변경 로그 데이터셋에 대해 더 알아보기.
스냅샷 차이: 결과물을 SNAPSHOT
트랜잭션으로 출력하되, 새로 보게 된 기본 키를 가진 행만 출력에 보관됩니다. 현재 트랜잭션 내에 중복 행이 있다면 보관됩니다. 다른 모든 행은 삭제됩니다.
스냅샷 대체: 결과물을 SNAPSHOT
트랜잭션으로 출력하되, 새로운 데이터가 이전 출력과 병합됩니다. 이전 출력에 존재하는 기본 키는 새로운 행을 위해 삭제됩니다. 현재 트랜잭션 내에 중복 행이 있다면, 하나를 제외한 모든 행이 무작위로 삭제되어 출력에는 기본 키당 하나의 행만 남게 됩니다.
스냅샷 대체 및 제거: 이는 스냅샷 대체와 동일하며, 이전 데이터에서 행을 선택적으로 제거하기 위한 후처리 단계가 추가로 이루어집니다. 결과물을 SNAPSHOT
트랜잭션으로 출력하되, 새로운 데이터가 이전 출력과 병합되며, 제공된 부울 post_filtering_column
를 기준으로 이전 트랜잭션에서 행을 제거하는 후처리 단계가 이루어집니다. post_filtering_column = TRUE
인 새로운 행을 위해 이전 출력에 존재하는 기본 키가 삭제됩니다. 그러나, post_filtering_column = FALSE
인 현재 트랜잭션에서 기본 키가 주어진 행이 존재한다면, 이전 데이터에서 해당 행이 필터링되어 제거됩니다(이는 post_filtering_column = TRUE
인 새로운 행이 저장되는 것을 무효화하지 않습니다). 현재 트랜잭션 내에 post_filtering_column = TRUE
인 중복 행이 있다면, 하나를 제외한 모든 행이 무작위로 삭제되어 출력에는 기본 키당 하나의 행만 남게 됩니다.
데이터셋의 출력 파일 형식은 초기 배포 후 변경할 수 있으며, 파이프라인의 다음 배포 때 적용됩니다. 파일 형식에 대해 더 알아보기.
기존 데이터셋의 소유권을 Pipeline Builder의 새로운 결과물에 부여하는 일회성 액션입니다. 이 액션은 Pipeline Builder 외부에서 추가 액션을 필요로 할 수 있습니다.
데이터셋 결과물을 파이프라인에 추가한 후, 변경사항을 반드시 저장하세요. 데이터 변환 작업을 마치고 파이프라인 워크플로를 정의하였다면, 파이프라인을 배포하고 데이터셋 결과물을 빌드할 준비가 되었습니다. 파이프라인을 배포한 후, 최종 데이터셋 결과물을 Ontology Manager에서 온톨로지 구축의 기초로 사용합니다.
파이프라인 배포 방법에 대해 알아보기.