2. [Code Repositories] 데이터 변환 소개18 - 주요 요약

본 번역은 검증되지 않았습니다. AIP를 통해 영문원문으로부터 번역되었습니다.

18 - 주요 요약

이 내용은 learn.palantir.com ↗에서도 사용할 수 있으며, 접근성을 위해 여기에 제시되었습니다.

파이프라인의 모든 단계에서 코드를 신중하게 관리하고 효율적으로 사용하면 유지 관리성이 크게 향상됩니다. 데이터셋과 열 이름의 일관성은 귀하의 그룹에서 다른 사람들이 변환 코드를 더 쉽게 접근할 수 있게 하며 결과물이 다른 데이터 에셋과 더 쉽게 결합될 수 있도록 보장합니다. 사용자 정의 Function(예: 클리닝 또는 포맷팅 용)이 필요할 때, 한 번 작성하고 임포트 문에서 참조하면 코드베이스를 가볍고 이해하기 쉽게 유지할 수 있습니다.

이 튜토리얼에서는 다음을 수행했습니다:

  1. 파이썬 Code Repositories를 설정하고 Git 워크플로를 연습했습니다.
  2. identity transforms를 통해 데이터셋의 복사본을 생성했습니다.
  3. 데이터 형식화 및 업데이트를 위한 유틸리티 Function을 빌드하고, 이러한 Function을 변환 파일에서 참조했습니다.
  4. 후속 클리닝을 위해 원본 데이터의 원시 버전과 처리된 버전을 생성했습니다.

다음은 이 교육 과정에서 사용된 제품 관련 문서의 목록입니다:

파이프라인의 전처리 단계는 데이터셋을 더 실질적인 정책 기반 클리닝 단계에 대비시키며, 이로써 그룹 전체에서 더 넓게 사용할 수 있는 데이터셋을 생성합니다. 다음 튜토리얼은 파이프라인을 클리닝 단계로 이동시키는 것뿐만 아니라, Foundry에서 데이터를 변환하기 위한 새로운 모범 사례와 기법을 소개할 것입니다.