3. [Code Repositories] 프로젝트 출력 생성15 - 핵심 요약

본 번역은 검증되지 않았습니다. AIP를 통해 영문원문으로부터 번역되었습니다.

15 - 핵심 요약

이 내용은 learn.palantir.com ↗ 에서도 확인할 수 있으며, 접근성을 위해 여기에 제공됩니다.

항상 문서화하십시오. Data Lineage 애플리케이션을 통한 시각적 문서화, 프로젝트 내의 README 파일이나 다른 텍스트 기반 자료로의 텍스트 문서화, 또는 인라인 코드 주석 및 커밋 메시지를 통한 문서화와 같은 방식으로, 파이프라인 로직과 종속성에 대한 설명을 철저하게 기록함으로써 빠른 문제 해결을 촉진하고 유지 관리 고충을 예방할 수 있습니다.

이 튜토리얼에서는 다음과 같은 작업을 수행했습니다.

  1. 파이프라인에 PySpark를 사용하여 전처리된 파일을 결합하여 사용 가능한 결과물을 생성하는 청소 단계를 도입했습니다.
  2. Contour에서 데이터 품질을 검증한 후 제안된 변환을 적용하고, 분석 결과를 Datasource 프로젝트에 저장했습니다.
  3. 데이터소스 단계의 파이프라인에 대한 Data Lineage 표현을 저장했습니다.
  4. Code Repositories의 README 파일을 사용하여 파이프라인을 문서화했습니다.

아래는 이 교육 과정에서 사용된 제품 관련 문서 목록입니다.

이제 원시 데이터에서 청소 데이터로의 다중 노드 흐름을 만들었으므로, 변환을 순차적으로 자동 실행할 일정을 생성하는 작업을 진행할 것입니다. 파이프라인 모니터링에서 파이프라인의 스케줄링이 중요한 부분이며, 다음 튜토리얼에서는 Scheduler 애플리케이션을 추천 구성으로 사용하고 파이프라인에 대한 문서를 작성하여 문제 해결 및 유지 관리 작업을 용이하게 할 것입니다.