6. 데이터 파이프라인 건강 모니터링7 - 파이프라인 전체에 스키마 및 TSLU 체크 설치

본 번역은 검증되지 않았습니다. AIP를 통해 영문원문으로부터 번역되었습니다.

7 - 파이프라인 전체에 스키마 및 TSLU 체크 설치

이 내용은 learn.palantir.com ↗에서도 사용할 수 있으며, 접근성을 위해 여기에 제시됩니다.

📖 작업 소개

파이프라인의 모든 입력에 스키마 체크를 설치하는 것을 권장하며, 예상 업데이트 빈도를 알고 있다면 선택적으로 TSLU 체크를 설치합니다. 빌드 일정의 모든 결과물 (즉, 목표)에는 적어도 TSLU 및 스키마 체크를 포함해야 합니다.

진행하면서, 각각 자신의 일정이 설정된 세 개의 연결된 빌드 단위가 있다는 것을 기억하세요:

  • yourName Flight Alerts Schedule: Datasource Project: Flight Alerts 프로젝트의 작업에 대한 빌드 일정입니다.
  • yourName Passengers Schedule: Datasource Project: Passengers 프로젝트의 작업에 대한 빌드 일정입니다.
  • yourName Alert Metrics Schedule: Transform Project: Alert Metrics 프로젝트의 작업에 대한 빌드 일정입니다.

🔨 작업 지시사항

  1. Flight Alerts Pipeline Data Lineage 그래프로 돌아가서 flight_alerts_clean에서 모든 하류 노드를 포함하도록 확장하십시오. 이는 필터링된 국가 및 우선순위 데이터셋을 의미합니다. upstream 노드를 모두 추가하십시오.
  2. 모든 일정 목표에 TSLU 및 스키마 체크를 추가하고, 각각을 해당 체크 그룹에 추가하십시오.
  3. 모든 일정 입력에 스키마 체크를 추가하고, 각각을 해당 체크 그룹에 추가하십시오. Passengers 일정에 대한 *_json_raw*_csv_raw 입력 데이터셋은 변환의 성격 때문에 특정 스키마를 기대하지 않으므로, 대신 각각에 대해 preprocessed 단계에서 스키마 체크를 고려해 보십시오.

"Builder" 경로를 따르고 있다면 preprocessed Passenger 데이터셋이 없을 수 있으며, 이 단계는 건너뛸 수 있습니다.

:

  • 각 일정에 마우스를 올려 놓으면, 각 일정의 입력 및 목표가 된 노드를 시각적으로 상기할 수 있습니다.
  • Shift + 드래그를 사용하여 Data Lineage 그래프에서 여러 노드를 한 번에 선택하고, 오른쪽 클릭하여 **Add health check...**를 선택함으로써 여러 노드에 체크를 적용하십시오.
  • 데이터셋이 한 빌드 일정의 목표이고 다른 일정의 입력인 경우, 스키마 또는 TSLU 체크를 두 번 적용할 필요(또는 능력!)가 없습니다.
  • 각각을 해당 체크 그룹에 추가하십시오.