7. [Code Repositories] 데이터 기대치 구성3 - 기본 키 검사 구현

본 번역은 검증되지 않았습니다. AIP를 통해 영문원문으로부터 번역되었습니다.

3 - 기본 키 검사 구현

이 내용은 learn.palantir.com ↗에서도 사용할 수 있으며 접근성을 위해 여기에 제시됩니다.

📖 작업 소개

아래 이미지에서 보여지는 것처럼, Data Health 서비스는 기본 키의 고유함을 확인하는 검사를 사용할 수 있습니다. 이는 신뢰할 수 있는 데이터셋의 중요한 속성입니다.

언급한 바와 같이, 이 데이터 건강 검사와 데이터 기대 검사로서의 구현 사이의 주요 차이점은 후자가 변환과 관련된 작업을 중단할 수 있는 반면, 전자는 단지 실패에 대해 알릴 뿐입니다. 이 연습에서는 기본 기대 구문을 사용하여 flight_alerts_clean 변환에 기본 키 검사를 추가하는 방법을 안내합니다. 구체적으로 변환의 결과물에 검사를 추가하므로, @transform_df 데코레이터의 Output 항목에 인수로 전달합니다.

🔨 작업 지침

  1. @transform_df 데코레이터의 Output 라인을 두 번째 인수(데이터셋 RID 또는 경로가 첫 번째 인수)로 업데이트합니다:

    checks=Check(E.primary_key('alert_display_name'), 'Primary Key', on_error='FAIL')

    여기서 alert_display_name은 결과 데이터셋의 기본 키 열로 사용되며, 오류 발생 시 작업이 중단됩니다(on_error='FAIL'). 오류 발생 시 알림만 받길 원한다면 **on_error='WARN'**을 선택할 수도 있습니다. 아래의 클릭 가능한 이미지에서 여백과 구문을 비교하세요.

  2. Problems 탭에서 Code Assist가 주의를 기울일 구문 오류가 없는지 확인합니다. 코드가 정리되면 의미 있는 커밋 메시지 (예: “feature: add primary key expectation”)로 변경 사항을 커밋합니다.

  3. CI 검사가 통과되면 브랜치에서 코드를 빌드합니다.

  4. 빌드가 성공적으로 완료되면 화면 하단의 저장소 Build 도우미에서 Expectations 탭을 클릭합니다. 기대 사항이 충족되었습니다. 기본 키 열이 고유합니다. 이제 이러한 인코딩된 검사가 Data Health 애플리케이션에서 어떻게 나타나는지 살펴보겠습니다.

  5. 브랜치에서 출력 데이터셋인 flight_alerts_clean을 엽니다. 브랜치에서 출력 데이터셋으로 이동하는 가장 간단한 방법은 변환의 Output 라인( @transform_df 데코레이터 내)에 있는 하이퍼링크된 데이터셋 이름을 클릭하는 것입니다.

  6. 데이터셋 애플리케이션에서 Health 탭을 클릭합니다. 탭 이름 옆에는 1이 표시되어야 합니다.

  7. 새로운 Status 검사가 Data Expectations Monitor로 레이블이 지정되어 있습니다. 검사를 열려면 클릭하세요.

  8. 이것이 기본 키 검사인지 어떻게 알 수 있을까요? 검사 구성의 Outputs 섹션에서 데이터셋 이름을 클릭합니다. 그런 다음 추가 세부 정보를 위해 Primary Key 항목을 클릭합니다.

  9. 구성한 Data Health 검사와 달리, 이 검사에는 자동으로 구독되지 않습니다. Watch 버튼을 클릭하여 구독하세요.

  10. 브랜치에서 Code Repositories로 돌아가려면 화면 오른쪽 상단의 Actions ▾ 드롭다운을 클릭하고 View code 글자를 직접 클릭합니다.

  11. PR 프로세스를 사용하여 브랜치를 Master로 병합합니다.

  12. Master에서 코드를 빌드합니다.

  13. yourName Flight Alerts Schedule 검사 그룹에 검사를 추가하는 것을 고려하세요.