12 - 파이프라인 문서화 및 업데이트

이 내용은 learn.palantir.com ↗에서도 사용할 수 있으며 접근성을 위해 여기에 제시되었습니다.

📖 작업 소개

왜 손대지 않은 데이터셋의 clean 버전을 온톨로지 입력으로 사용하지 않았을까요?

Clean 데이터셋은 Foundry에서 많은 활동의 시작점이 되는 경향이 있으며, 이에는 분석, 모델링, 기타 데이터 파이프라인이 포함됩니다. 일반적으로 raw 데이터와 밀접하게 닮아 있어 온톨로지 오브젝트와 링크 유형에 필요한 것보다 훨씬 더 많은 열을 포함할 수 있지만, 이와 같은 다른 워크플로에는 매우 소중합니다. 또한 온톨로지-백업 데이터셋에 새로운 파생 열을 추가하고자 결정할 수도 있으며, 이러한 변경을 clean 버전에 영향을 주지 않고 수행하고자 할 수 있습니다. 이 중간 변환 단계(clean → ontology)는 처음에는 형식처럼 느껴질 경우에도 항상 권장됩니다.

이제 파이프라인에 변환 단계를 추가했으므로, 이 교육 트랙에서 배운 관행에 따라 문서화, 일정, 모니터링해야 합니다. 이러한 요약 권장 사항을 따라 지식을 테스트해 보세요.

🔨 작업 지침

파이프라인이 배포되면 Pipeline Builder의 파이프라인 결과물 패널 상단에 있는 리니지 보기 버튼을 클릭합니다.
데이터셋을 확장하여 모든 조상 노드를 표시하고 논리적으로 배열합니다(힌트: 모든 노드를 선택하고 ctrl+l을 클릭해 보세요).
이 Data Lineage 그래프를 /Ontology Project: Flight Alerts/documentation/에 "Flight Alerts Pipeline (Full)"로 저장합니다.
/documentation 폴더에 다른 저장소에 생성된 것과 구조가 같은 Notepad 문서를 추가합니다. 소유자 정보와 설명을 추가하는 것을 고려해 보세요. 이 설명은 이전 튜토리얼 "프로젝트 결과물 생성"의 작업 소개 섹션 "서면 파이프라인 문서 추가"에서 가져올 수 있습니다.
Data Lineage 그래프에서 스케줄 도우미를 열고 Flight Alerts와 Passengers 스케줄을 수정하여 대상이 새로운 ontology 데이터셋이 되도록 하세요(이전에 구성된 clean 대상 대신).
세 가지 새로운 온톨로지 데이터셋 각각에 다음 건강 검사를 적용하고 관련 검사 그룹에 추가하세요:
- 스키마 검사 (COLUMN_ADDITIONS_ALLOWED_ STRICT).
- 기본 키 (심각도 = 중요). flight_alerts_passenger의 경우 검사를 구성하여 alert_display_name과 passenger_id 조합을 확인하도록 합니다.
- 마지막 업데이트 이후 시간 (중앙값 > 편차 1)

온톨로지에서 오브젝트와 링크 유형을 구성한 후 최종 검사를 추가할 예정입니다. 이러한 새로운 데이터셋은 모두 기존 일정 상태 및 일정 기간 검사에 자동으로 추가됩니다.