3. [Pipeline Builder] 프로젝트 출력 생성7 - 파이프라인 문서화 및 Data Lineage 그래프 생성

본 번역은 검증되지 않았습니다. AIP를 통해 영문원문으로부터 번역되었습니다.

7 - 파이프라인 문서화 및 Data Lineage 그래프 생성

이 콘텐츠는 learn.palantir.com ↗에서도 확인할 수 있으며, 접근성을 위해 여기에도 제공됩니다.

📖 작업 소개

Datasource 프로젝트의 /documentation 폴더에 Data Lineage 그래프를 생성하고 저장하여 팀이 파이프라인의 이 단계에서 데이터 흐름을 빠르게 이해할 수 있도록 돕습니다.

🔨 작업 지침

  1. Pipeline Builder에서 Pipeline outputs 창 상단의 View Lineage 버튼을 Ctrl+클릭합니다.

  2. Data Lineage 화면 왼쪽 상단에서 Align 아이콘을 클릭하여 격자에 맞추는 동작을 활성화합니다.

  3. 이미 설정하지 않았다면 오른쪽 상단의 “gear” 아이콘을 클릭하고 Enable curved edges를 활성화합니다.

  4. 현재 그래프는 flight_alerts_clean*_preprocessed 데이터셋만 표시합니다. 전처리된 노드를 강조하여 원본 원시 입력 데이터셋까지 리니지를 확장합니다. 리니지가 나타나면 노드를 필요에 따라 재배열합니다.

  5. Node color optionsFolder로 변경하여 파이프라인 단계를 더 명확하게 구분합니다.

    가장 상류에 있는 “raw” 데이터셋은 외부 데이터소스를 모사하는 것에 지나지 않습니다. 원시 데이터셋 연결이 예를 들어, sample-source라는 단일 외부 Postgres 데이터베이스에서 가져온 경우, 그래프는 다음과 같이 보일 것입니다:

  6. 이 설정을 가능한 한 가깝게 시뮬레이션해 봅시다. 왼쪽에서 가장 왼쪽에 있는 "Flight Alerts Raw Data" 노드를 그래프에 표시합니다.

  7. 선택한 부분에서 마우스 오른쪽 버튼을 클릭하고 **Group nodes...**를 선택합니다.

  8. 그룹 이름을 "Simulated External Data Source"로 지정합니다.

  9. Data Lineage 애플리케이션 오른쪽 상단의 파란색 Save 버튼을 클릭합니다. 파일을 Datasource 프로젝트의 /documentation 폴더에 Flight Alerts Pipeline로 저장합니다 (예: .../Data Engineering Tutorials/Datasource Project: Flight Alerts/).