Pipeline Builder에서 데이터를 변환하고 구조화하는 또 다른 방법은 유니온을 적용하는 것입니다. 유니온은 두 개의 데이터 세트를 결합하여 각 데이터 세트의 모든 행을 포함합니다. Pipeline Builder에서 유니온은 중복 행을 포함한 모든 행을 유지합니다.
두 데이터 세트를 결합하려면 작업 공간에서 첫 번째 데이터 세트 노드를 선택하고 Union을 클릭합니다.
첫 번째 선택된 데이터 세트는 왼쪽 데이터 세트입니다. 오른쪽 데이터 세트가 될 다른 데이터 세트 노드를 선택합니다. Start를 클릭하여 유니온 결과물 미리보기 페이지로 이동합니다.
미리보기 창에서 Create union을 클릭한 다음 결과물 데이터 세트 미리보기를 확인합니다.
유니온은 모든 입력값이 동일한 스키마를 가져야 합니다. 입력값 스키마가 모두 일치하지 않으면, 유니온에는 누락된 열 목록이 있는 오류 메시지가 표시됩니다.
해결하려면 누락된 열에 대한 참조를 제거하거나 입력값을 검토합니다.
유니온 작성을 완료하면 Apply를 클릭하여 워크플로우에 유니온을 추가합니다. 그래프에서 유니온 노드가 두 개의 유니온 데이터 세트에 연결된 것을 볼 수 있습니다. 새로운 유니온의 이름을 Union
으로 지정했으며, 원본 Correct columns
및 Vendor Cut 2 - demo data
데이터 세트의 직접 결과물입니다.
유니온 노드를 클릭하여 편집하기를 선택함으로써 유니온의 이름을 변경하거나 편집할 수 있습니다.
노드의 하얀색 또는 회색 원을 드래그하여 그래프에서 연결을 변경하고 링크를 제거합니다. 유니온 노드의 회색 타원을 클릭하여 여러 연결을 제거합니다.
유니온은 왼쪽과 오른쪽 데이터 세트의 모든 행을 유지하므로 중복 행도 포함됩니다. 중복 행을 제거하려면 유니온 결과물에 Drop duplicates
변환을 추가합니다.