이 내용은 learn.palantir.com ↗에서도 제공되며 접근성을 위해 여기에도 제공됩니다.
이 단계의 파이프라인에서 데이터 흐름을 빠르게 이해할 수 있도록 Data Lineage 그래프를 만들어 Datasource 프로젝트의 /documentation
폴더에 저장합니다.
Pipeline Builder에서 Pipeline outputs 창 상단에 있는 View Lineage 버튼을 Ctrl+클릭합니다.
Data Lineage 화면의 왼쪽 상단에서 Align 아이콘을 클릭하여 격자에 맞추는 동작을 활성화합니다.
오른쪽 상단의 "기어" 아이콘을 클릭하고, 아직 활성화하지 않았다면 Enable curved edges를 활성화합니다.
그래프에 현재 flight_alerts_clean
및 *_preprocessed
데이터셋만 표시됩니다. 전처리된 노드를 강조 표시하고, 원본 원시 입력 데이터셋까지 리니지를 확장합니다.
리니지가 나타나면 필요한 대로 노드를 재배열합니다.
Node color options을 Folder로 변경하여 파이프라인 단계를 더 명확하게 식별합니다.
최상위의 "원시" 데이터셋이 외부 데이터 소스를 시뮬레이션하는 것임을 기억하세요. 원시 데이터셋 연결이 sample-source
라는 단일 외부 Postgres 데이터베이스에서 왔다면, 그래프는 다음과 같이 보일 것입니다:
이 구성을 가능한 한 가깝게 시뮬레이션해봅시다. 그래프에서 가장 왼쪽의 "Flight Alerts Raw Data" 노드 주위에 shift를 클릭하고 선택 상자를 드래그합니다.
선택한 부분에서 마우스 오른쪽 버튼을 클릭하고 **Group nodes...**를 선택합니다.
그룹 이름을 "Simulated External Data Source"로 지정합니다.
Data Lineage 애플리케이션 오른쪽 상단의 파란색 Save 버튼을 클릭합니다. 파일을 Datasource 프로젝트의 /documentation
폴더에 Flight Alerts Pipeline으로 저장합니다 (예: .../Data Engineering Tutorials/Datasource Project: Flight Alerts/
).