6. 데이터 파이프라인 건강 모니터링4 - Data Lineage 애플리케이션에서 스키마 검사 추가하기

본 번역은 검증되지 않았습니다. AIP를 통해 영문원문으로부터 번역되었습니다.

4 - Data Lineage 애플리케이션에서 스키마 검사 추가하기

이 내용은 learn.palantir.com ↗에서도 확인 가능하며, 접근성을 위해 여기에도 제공됩니다.

📖 작업 소개

지난 7가지 튜토리얼을 통해 입력/출력 관계를 통해 연결된 파이프라인 세트를 구축하였습니다. 우리는 데이터소스 프로젝트: 플라이트 알림 파이프라인에 주목하여, 일정 입력과 결과물의 스키마를 평가하는 중요한 건강 검사를 적용할 것입니다.

일정 대상은 종종 다른 데이터 변환, Contour 분석 또는 온톨로지 오브젝트의 입력으로 사용되며, 이들 모두 특정 스키마를 기대합니다. 따라서 일정 빌드의 입력과 대상에 스키마 검사를 구현하여 잠재적으로 방해가 될 수 있는 스키마 변경에 대해 알림을 받을 수 있도록 하는 것이 좋습니다.

🔨 작업 지침

  1. 데이터소스 프로젝트: 플라이트 알림 프로젝트 폴더에서 플라이트 알림 파이프라인을 엽니다.
  2. Data Lineage 애플리케이션 화면의 오른쪽에 있는 일정 관리하기 아이콘을 클릭하고 이 파이프라인에 대한 저장된 일정인 yourName 플라이트 알림 일정을 클릭합니다.
    • 그래프는 flight_alerts_clean이 일정 빌드의 대상이며, 입력 트리거로 표시된 세 가지 데이터셋이 입력이라는 것을 보여줍니다. 파이프라인을 모니터링할 때, 빌드의 입력대상에 대한 건강 검사를 구성하고 일정 자체에 대해서도 구성합니다.
  3. flight_alerts_clean을 마우스 오른쪽 버튼으로 클릭하고 메뉴에서 **건강 검사 추가하기...**를 선택합니다. 이렇게 하면 Data Lineage에서 바로 하나 이상의 선택된 데이터셋에 검사를 빠르게 추가할 수 있는 편리한 방법이 열립니다.
  4. 검사 목록 하단으로 스크롤하고 스키마 카테고리에서 스키마를 선택합니다. 이렇게 하면 스키마 건강 검사 구성 창이 열립니다.
  5. 심각도 수정하기 링크를 찾아 클릭하고 심각도를 중요한 것으로 변경합니다. 모든 스키마 변경이 “중요한” 것일 필요는 없지만, 이 경우에는 이 데이터셋에 대한 하류 의존성이 있어서 변경이 발생하면 실패할 것입니다.
  6. 현재 체크 비교 허용치인 EXACT_MATCH_ORDERED_COLUMNS는 열 번호, 순서 및 유형이 변경되지 않은 경우에만 통과합니다. 열 순서나 추가 변경(즉, 열을 제거하거나 기존 열의 데이터 유형을 변경하는 것)에는 덜 관심이 있다고 가정합니다. 비교 허용치를 COLUMN_ADDITIONS_ALLOWED로 변경하면, 기존 열 이름과 유형(순서는 제외)이 필요한 경우 추가 열을 허용합니다.
  7. 검사 그룹 추가하기 링크를 클릭하고 플라이트 알림 일정 그룹을 선택합니다.
  8. 검사에 메모를 추가합니다: “데이터셋은 변환 프로젝트: 알림 측정치의 입력으로 사용됩니다.”
  9. 검사를 저장합니다.