5B. [Code Repositories] 코드 리포지토리에서 공유 라이브러리 게시 및 사용1 - 이 과정에 대하여

본 번역은 검증되지 않았습니다. AIP를 통해 영문원문으로부터 번역되었습니다.

1 - 이 과정에 대하여

이 내용은 learn.palantir.com ↗에서도 확인할 수 있으며, 접근성을 위해 여기에도 제시되어 있습니다.

Raw 데이터셋은 일반적으로 형식이 잘못되거나 하류에서 사용하기에 적합하지 않은 민감한 데이터를 포함하고 있기 때문에 엄격하게 제한됩니다. 이 교육 과정에서 배운 것처럼, datasource 프로젝트의 주요 결과물은 다양한 유즈케이스에서 사용할 수 있는 clean 데이터셋이며, 이는 제품 데이터 파이프라인의 다음 단계로 사용됩니다. 이전 튜토리얼에서는 raw JSON 및 CSV 파일을 Datasource Project: Passengers에 포함된 전처리된 "passenger" 데이터셋으로 변환했습니다. 다음 단계는 clean 데이터셋 결과물을 생성하는 것입니다.

그룹에서는 변환 유즈케이스 전반에 적용할 수 있는 표준화된 클리닝 유틸리티의 집합에서 이익을 얻을 수 있는 공통 데이터 형식이 있을 수 있습니다. 각 사용에 대해 동일한 클리닝 유틸리티 코드를 비효율적으로 반복하는 대신, Python 코드 라이브러리를 개발하고 그룹 전체에서 공유할 수 있습니다.

⚠️ 과정 사전 요구사항

  • DATAENG 05a: Code Repositories에서 Raw 파일 다루기: 이전 과정을 아직 완료하지 않았다면, 지금 완료하십시오.

결과물

Python 코드 라이브러리를 그룹 전체에서 공유하고 사용하는 것은 Foundry 데이터 엔지니어 도구 상자의 중요한 부분입니다. datasource 프로젝트에서 clean passenger 데이터 결과물을 생성하는 과정(passengers_cleanpassengers_flight_alerts_clean 생성)에서 클리닝 유틸리티를 만들고, 게시하고, 다른 변환에서 사용하게 됩니다. 구체적으로는 Code Repositories를 통한 데이터 변환 소개에서 클리닝 함수를 공유 라이브러리로 전환하고 두 datasource 저장소에서 참조하게 됩니다. passenger 데이터를 클리닝한 후, JSON과 CSV 파이프라인을 유니온하는 결과물 passenger 데이터셋을 생성합니다.

🥅 학습 목표

  1. Foundry가 일반적으로 패키지를 제공하는 방식을 이해합니다.
  2. Python 라이브러리를 작성하고, 게시하고, 사용하는 방법을 알아봅니다.
  3. datasource 프로젝트에서 clean 데이터셋 결과물을 생성하는 추가 연습을 진행합니다.

💪 Foundry 능력

  • 클리닝 유틸리티 함수를 작성합니다.
  • 클리닝 유틸리티를 공유 Python 라이브러리로 게시합니다.
  • 다른 Code Repositories에서 공유 라이브러리를 구현합니다.