데이터 기대값은 데이터 세트 입력값이나 결과물에 적용할 수 있는 요구사항입니다. 이러한 요구사항(기대값이라고 알려져 있음)은 데이터 파이프라인의 안정성을 향상시키는 검사를 생성하는 데 사용할 수 있습니다.
데이터 기대값은 각 파이프라인 결과물에 설정하여 결과물에 대한 기대값을 정의할 수 있습니다. Pipeline Builder는 현재 기본 키와 행 수를 지원하는 두 가지 데이터 기대값을 지원합니다.
기대값이 하나라도 실패하면 빌드가 실패합니다. 작업 기대값 창은 어떤 데이터 기대값이 통과되고 실패하는지 보여줍니다.
기본 키 기대값은 하나 이상의 열 이름이 제공되며 다음을 확인합니다.
특정 열에서 선택한 경우, 아래의 모든 항목이 고유한지 확인합니다.
두 열이 선택된 경우, 두 열의 조합이 고유한지 확인합니다.
예제에서는 id
와 time
을 데이터 세트에 존재하는 두 열로 사용하겠습니다.
예제 데이터 세트:
id | time |
---|---|
1 | 8pm |
1 | 9pm |
2 | 8pm |
3 | 8pm |
위 예제는 검사를 통과합니다. 이는 1
과 8pm
이 개별적으로 반복되지만 id
와 time
의 조합은 고유하기 때문입니다.
반대로 다음은 실패합니다:
id | time |
---|---|
1 | 8pm |
2 | 9pm |
1 | 8pm |
이 표는 1
과 8pm
조합이 반복되기 때문에 검사에 실패합니다.
행 수 기대값은 최소 행 수와/또는 최대 행 수가 제공됩니다.
최소 행 수가 제공되면 기대값은 지정된 행 수 이상이 있음을 확인합니다.
최대 행 수가 제공되면 기대값은 최대 이렇게 많은 행이 있음을 확인합니다.