데이터셋 결과물 추가하기

Pipeline Builder에서 데이터셋 결과물을 추가하여 깨끗하고 변환된 데이터로의 파이프라인 통합을 안내할 수 있습니다. 다른 결과물 유형에 대해 더 알아보기.

데이터셋 결과물 생성하기

우선, 그래프 오른쪽의 결과물 패널에서 데이터셋 유형 옆에 있는 추가하기를 클릭합니다.

이제 새로운 결과물 데이터셋을 생성했습니다. 파이프라인이 처음 빌드된 후, 결과물 데이터셋은 파이프라인과 같은 폴더에서 생성됩니다. 예를 들어, Demo Pipeline의 Vendor 데이터셋 결과물은 다음과 같은 파일 경로를 가질 것입니다: /Palantir/Pipeline Builder/Demo Pipeline/Vendor.

결과물 데이터셋의 이름을 변경하려면 이름 필드를 클릭합니다. 열 추가하기를 선택하여 수동으로 결과물 스키마에 열을 추가하거나, 변환 노드를 연결하여 업데이트된 스키마 사용하기로 그것의 결과물 스키마를 사용합니다.

결과물 스키마를 추가한 후, 열 검색하기... 필드를 사용하여 데이터셋 내의 열을 빠르게 찾습니다. 결과물 스키마의 오류만 보려면 오류만 표시하기 버튼을 토글합니다.

결과물 데이터셋을 추가한 후, 모든 결과물로 돌아가기를 클릭하여 파이프라인의 모든 결과물 목록을 보기. 각 결과물의 상태를 한눈에 파악하고, 결과물 스키마가 입력 변환 노드 스키마와 일치하는지 확인하기. 아래의 세 개의 결과물은 결과물 스키마가 가질 수 있는 다른 상태들을 나타냅니다:

데이터셋 1은 5/5 필수 열을 가지고 있어, 입력 변환 노드의 모든 열이 결과물 데이터셋에 빌드될 것을 의미합니다.
데이터셋 2은 2개의 열이 삭제된 상태에서 3/3 필수 열을 가지고 있어, 입력 변환 노드에 5개의 열이 있지만 결과물 데이터셋에는 3개만 빌드될 것을 의미합니다. 이는 입력 변환 노드에 불필요한 열이 있을 때 바람직한 상황입니다.
데이터셋 3은 5/7 필수 열을 가지고 있는데, 이는 오류 상태입니다. 입력 변환 노드에 열로 매핑되는 누락된 2개의 열이 있을 때까지 파이프라인을 배포할 수 없습니다.

편집하기를 클릭하여 결과물 스키마를 언제든지 업데이트할 수 있습니다.

데이터셋 스키마에 대해 더 알아보기 데이터 통합.

결과물 설정 구성하기

스키마 설정 외에도, 각 개별 결과물은 사용자 지정이 가능한 다양한 기본 설정을 가지고 있습니다.

기대치 구성하기

결과물 데이터셋에 기대치를 추가하여 파이프라인 안정성을 강화합니다. 파이프라인 빌드 중에 어떤 검사가 실패하면 빌드가 실패합니다.

Output configure expectations

쓰기 모드 구성하기

향후 배포에서 데이터셋 결과물에 어떻게 데이터가 추가되는지 정의합니다.

Output configure write mode

기본: 결과물을 SNAPSHOT 트랜잭션으로 출력합니다. SNAPSHOT 트랜잭션에 대해 더 알아보기.

항상 행 추가하기: 결과물을 APPEND 트랜잭션으로 출력하여, 기존의 결과물 데이터셋에 행이 추가됩니다. APPEND 트랜잭션에 대해 더 알아보기.

새로운 행만 추가하기: 결과물을 APPEND 트랜잭션으로 출력하되, 새로 보게 된 기본 키를 가진 새로운 행만 출력에 추가됩니다. 현재 트랜잭션 내에 중복 행이 있다면 무작위로 하나가 삭제됩니다. 이전 출력에 존재하는 기본 키를 가진 행은 삭제됩니다.

변경 로그: Object Storage v1에서만 사용 가능. 모든 레코드의 변경 내역을 포함하는 일련의 APPEND 트랜잭션을 출력합니다. 변경 로그 데이터셋에 대해 더 알아보기.

스냅샷 차이: 결과물을 SNAPSHOT 트랜잭션으로 출력하되, 새로 보게 된 기본 키를 가진 행만 출력에 보관됩니다. 현재 트랜잭션 내에 중복 행이 있다면 보관됩니다. 다른 모든 행은 삭제됩니다.

스냅샷 대체: 결과물을 SNAPSHOT 트랜잭션으로 출력하되, 새로운 데이터가 이전 출력과 병합됩니다. 이전 출력에 존재하는 기본 키는 새로운 행을 위해 삭제됩니다. 현재 트랜잭션 내에 중복 행이 있다면, 하나를 제외한 모든 행이 무작위로 삭제되어 출력에는 기본 키당 하나의 행만 남게 됩니다.

스냅샷 대체 및 제거: 이는 스냅샷 대체와 동일하며, 이전 데이터에서 행을 선택적으로 제거하기 위한 후처리 단계가 추가로 이루어집니다. 결과물을 SNAPSHOT 트랜잭션으로 출력하되, 새로운 데이터가 이전 출력과 병합되며, 제공된 부울 post_filtering_column를 기준으로 이전 트랜잭션에서 행을 제거하는 후처리 단계가 이루어집니다. post_filtering_column = TRUE인 새로운 행을 위해 이전 출력에 존재하는 기본 키가 삭제됩니다. 그러나, post_filtering_column = FALSE인 현재 트랜잭션에서 기본 키가 주어진 행이 존재한다면, 이전 데이터에서 해당 행이 필터링되어 제거됩니다(이는 post_filtering_column = TRUE인 새로운 행이 저장되는 것을 무효화하지 않습니다). 현재 트랜잭션 내에 post_filtering_column = TRUE인 중복 행이 있다면, 하나를 제외한 모든 행이 무작위로 삭제되어 출력에는 기본 키당 하나의 행만 남게 됩니다.

데이터셋 쓰기 형식

데이터셋의 출력 파일 형식은 초기 배포 후 변경할 수 있으며, 파이프라인의 다음 배포 때 적용됩니다. 파일 형식에 대해 더 알아보기.

데이터셋 덮어쓰기

기존 데이터셋의 소유권을 Pipeline Builder의 새로운 결과물에 부여하는 일회성 액션입니다. 이 액션은 Pipeline Builder 외부에서 추가 액션을 필요로 할 수 있습니다.

데이터셋 결과물 빌드하기

데이터셋 결과물을 파이프라인에 추가한 후, 변경사항을 반드시 저장하세요. 데이터 변환 작업을 마치고 파이프라인 워크플로를 정의하였다면, 파이프라인을 배포하고 데이터셋 결과물을 빌드할 준비가 되었습니다. 파이프라인을 배포한 후, 최종 데이터셋 결과물을 Ontology Manager에서 온톨로지 구축의 기초로 사용합니다.

파이프라인 배포 방법에 대해 알아보기.