Pipeline Builder에서 고유 ID는 데이터 추적, 처리, 분석을 용이하게 하며, 각 레코드를 개별적으로 식별하고 적절하게 처리할 수 있도록 합니다. 이러한 이유로 레코드에 고유 식별자(ID)를 생성하는 것이 종종 필요합니다. 이 섹션에서는 단조 증가 ID를 사용하는 것이 최선의 방법인지와 왜 문자열 열의 연결을 따른 SHA256 해시를 사용하는 방법이 선호되는지 설명합니다.
고유 ID를 생성하는 가장 좋은 방법은 입력 데이터에서 문자열 열을 연결한 다음 연결된 문자열의 SHA256 해시를 생성하는 것입니다.
Pipeline Builder에서 이 방법으로 고유 ID를 생성하려면 Pipeline Builder 변환 경로 내에서 다음 단계를 수행하십시오:
이 방법은 여러 가지 장점이 있습니다:
문자열 열의 연결을 따른 SHA256 해시를 사용하면, 확장 가능하고, 안전하며, 일관성 있는 고유 ID를 생성할 수 있어 데이터 파이프라인 애플리케이션에 이상적인 선택이 됩니다.
단조 증가 ID는 Pipeline Builder에서 지원되지 않지만 Spark와 익숙한 데이터 엔지니어들에 의해 자주 사용됩니다. 단조 증가 ID는 순차적으로 생성됩니다(예: 1, 2, 3 등). 이 접근 방식은 본질적으로 단순하지만 여러 가지 단점이 있습니다:
이러한 단점으로 인해 데이터 파이프라인 애플리케이션에서 고유 식별자를 생성하는 데 단조 증가 ID를 사용하는 것이 최선의 방법이 아닙니다. 대신 앞서 설명한 바와 같이 문자열 열의 연결을 따른 SHA256 해시를 사용하는 것이 좋습니다.
빌드 또는 미리보기 간에 일관성이 없음을 유의하십시오. 고유한 열 세트를 식별할 수 없는 경우에만 이 방법을 사용해야 합니다.
데이터에서 고유한 행을 정의하는 열 세트가 없는 경우, 무작위 수의 해시를 사용하여 ID를 생성할 수 있습니다. 이렇게 ID를 생성하려면 Pipeline Builder 변환 경로 내에서 다음 단계를 수행하십시오: