이 내용은 learn.palantir.com ↗에서도 확인할 수 있으며, 접근성을 위해 여기에도 제시되어 있습니다.
Raw 데이터셋은 일반적으로 형식이 잘못되거나 하류에서 사용하기에 적합하지 않은 민감한 데이터를 포함하고 있기 때문에 엄격하게 제한됩니다. 이 교육 과정에서 배운 것처럼, datasource 프로젝트의 주요 결과물은 다양한 유즈케이스에서 사용할 수 있는 clean 데이터셋이며, 이는 제품 데이터 파이프라인의 다음 단계로 사용됩니다. 이전 튜토리얼에서는 raw JSON 및 CSV 파일을 Datasource Project: Passengers에 포함된 전처리된 "passenger" 데이터셋으로 변환했습니다. 다음 단계는 clean 데이터셋 결과물을 생성하는 것입니다.
그룹에서는 변환 유즈케이스 전반에 적용할 수 있는 표준화된 클리닝 유틸리티의 집합에서 이익을 얻을 수 있는 공통 데이터 형식이 있을 수 있습니다. 각 사용에 대해 동일한 클리닝 유틸리티 코드를 비효율적으로 반복하는 대신, Python 코드 라이브러리를 개발하고 그룹 전체에서 공유할 수 있습니다.
Python 코드 라이브러리를 그룹 전체에서 공유하고 사용하는 것은 Foundry 데이터 엔지니어 도구 상자의 중요한 부분입니다. datasource 프로젝트에서 clean passenger 데이터 결과물을 생성하는 과정(passengers_clean
및 passengers_flight_alerts_clean
생성)에서 클리닝 유틸리티를 만들고, 게시하고, 다른 변환에서 사용하게 됩니다. 구체적으로는 Code Repositories를 통한 데이터 변환 소개에서 클리닝 함수를 공유 라이브러리로 전환하고 두 datasource 저장소에서 참조하게 됩니다. passenger 데이터를 클리닝한 후, JSON과 CSV 파이프라인을 유니온하는 결과물 passenger 데이터셋을 생성합니다.