3. [Code Repositories] 프로젝트 출력 생성10 - 파이프라인을 Data Lineage 그래프로 문서화하기

본 번역은 검증되지 않았습니다. AIP를 통해 영문원문으로부터 번역되었습니다.

10 - 파이프라인을 Data Lineage 그래프로 문서화하기

이 내용은 learn.palantir.com ↗에서도 제공되며 접근성을 위해 여기에도 제공됩니다.

📖 작업 소개

이 단계의 파이프라인에서 데이터 흐름을 빠르게 이해할 수 있도록 Data Lineage 그래프를 만들어 Datasource 프로젝트의 /documentation 폴더에 저장합니다.

🔨 작업 지침

  1. Pipeline Builder에서 Pipeline outputs 창 상단에 있는 View Lineage 버튼을 Ctrl+클릭합니다.

  2. Data Lineage 화면의 왼쪽 상단에서 Align 아이콘을 클릭하여 격자에 맞추는 동작을 활성화합니다.

  3. 오른쪽 상단의 "기어" 아이콘을 클릭하고, 아직 활성화하지 않았다면 Enable curved edges를 활성화합니다.

  4. 그래프에 현재 flight_alerts_clean*_preprocessed 데이터셋만 표시됩니다. 전처리된 노드를 강조 표시하고, 원본 원시 입력 데이터셋까지 리니지를 확장합니다. 리니지가 나타나면 필요한 대로 노드를 재배열합니다.

  5. Node color optionsFolder로 변경하여 파이프라인 단계를 더 명확하게 식별합니다.

    최상위의 "원시" 데이터셋이 외부 데이터 소스를 시뮬레이션하는 것임을 기억하세요. 원시 데이터셋 연결이 sample-source라는 단일 외부 Postgres 데이터베이스에서 왔다면, 그래프는 다음과 같이 보일 것입니다:

  6. 이 구성을 가능한 한 가깝게 시뮬레이션해봅시다. 그래프에서 가장 왼쪽의 "Flight Alerts Raw Data" 노드 주위에 shift를 클릭하고 선택 상자를 드래그합니다.

  7. 선택한 부분에서 마우스 오른쪽 버튼을 클릭하고 **Group nodes...**를 선택합니다.

  8. 그룹 이름을 "Simulated External Data Source"로 지정합니다.

  9. Data Lineage 애플리케이션 오른쪽 상단의 파란색 Save 버튼을 클릭합니다. 파일을 Datasource 프로젝트의 /documentation 폴더에 Flight Alerts Pipeline으로 저장합니다 (예: .../Data Engineering Tutorials/Datasource Project: Flight Alerts/).