이 콘텐츠는 learn.palantir.com ↗에서도 확인할 수 있으며, 접근성을 위해 여기에도 제공됩니다.
Datasource 프로젝트의 /documentation
폴더에 Data Lineage 그래프를 생성하고 저장하여 팀이 파이프라인의 이 단계에서 데이터 흐름을 빠르게 이해할 수 있도록 돕습니다.
Pipeline Builder에서 Pipeline outputs 창 상단의 View Lineage 버튼을 Ctrl+클릭합니다.
Data Lineage 화면 왼쪽 상단에서 Align 아이콘을 클릭하여 격자에 맞추는 동작을 활성화합니다.
이미 설정하지 않았다면 오른쪽 상단의 “gear” 아이콘을 클릭하고 Enable curved edges를 활성화합니다.
현재 그래프는 flight_alerts_clean
과 *_preprocessed
데이터셋만 표시합니다. 전처리된 노드를 강조하여 원본 원시 입력 데이터셋까지 리니지를 확장합니다.
리니지가 나타나면 노드를 필요에 따라 재배열합니다.
Node color options을 Folder로 변경하여 파이프라인 단계를 더 명확하게 구분합니다.
가장 상류에 있는 “raw” 데이터셋은 외부 데이터소스를 모사하는 것에 지나지 않습니다. 원시 데이터셋 연결이 예를 들어, sample-source
라는 단일 외부 Postgres 데이터베이스에서 가져온 경우, 그래프는 다음과 같이 보일 것입니다:
이 설정을 가능한 한 가깝게 시뮬레이션해 봅시다. 왼쪽에서 가장 왼쪽에 있는 "Flight Alerts Raw Data" 노드를 그래프에 표시합니다.
선택한 부분에서 마우스 오른쪽 버튼을 클릭하고 **Group nodes...**를 선택합니다.
그룹 이름을 "Simulated External Data Source"로 지정합니다.
Data Lineage 애플리케이션 오른쪽 상단의 파란색 Save 버튼을 클릭합니다. 파일을 Datasource 프로젝트의 /documentation
폴더에 Flight Alerts Pipeline로 저장합니다 (예: .../Data Engineering Tutorials/Datasource Project: Flight Alerts/
).