2. [Code Repositories] 데이터 변환 소개1 - 이 강좌에 대하여

본 번역은 검증되지 않았습니다. AIP를 통해 영문원문으로부터 번역되었습니다.

1 - 이 강좌에 대하여

이 내용은 learn.palantir.com ↗에도 사용 가능하며, 이곳에서는 접근성을 위해 제시됩니다.

배경

현재, 데이터 엔지니어링 교육 트랙은 데이터 수집 과정이 끝나는 곳에서 시작됩니다 - 개념적인 상류 소스에서 "복사된" 원시 데이터셋 집합을 가지고 있습니다. Foundry 환경은 이러한 원시 훈련 데이터셋을 제공하며, 이는 편의를 위한 출발점으로 가정합니다. 실제로 원시 데이터셋을 데이터 연결 프로세스를 통해 수집하고, 그 데이터셋의 전처리 및 정리 버전을 하류 사용을 위해 생성하는 것은 모두 Foundry 데이터 엔지니어링의 연속적인 단계입니다. 데이터 연결 프로세스에 대한 자세한 내용은 관련 제품 문서를 참조하십시오.

팀이 데이터셋과 결과를 달성하기 위해 필요한 변환 단계에 동의하면, Foundry Code Repositories에서 데이터 에셋을 개발하기 시작하는 시간입니다. Code Repository 애플리케이션은 코드를 작성하고, 발행하고, 데이터 변환을 생산 파이프라인의 일부로 빌드할 수 있는 완전히 통합된 도구 모음을 포함하고 있습니다. 여러 Foundry 애플리케이션들이 데이터셋을 변환하고 결과물을 만들 수 있지만(예: Contour, Code Workbook, Preparation, Fusion), 트랙 전체에서 살펴볼 이유로, 생산 파이프라인은 Code Repositories 애플리케이션 또는 Pipeline Builder 애플리케이션에서만 빌드해야 합니다. 이 같은 튜토리얼을 Pipeline Builder를 통해 진행할 수도 있습니다.

⚠️ 강좌 사전 요건

  • DATAENG 01: 이 트랙의 이전 강좌를 완료하지 않았다면 지금 바로 진행하십시오.
  • Code Repositories를 생성하는 데 필요한 권한. 권한이 필요한 경우 프로그램 관리자 또는 Palantir 담당자에게 문의하십시오.
  • 코드 기반 데이터 변환에 대한 일반적인 익숙함: 이 강좌에서는 PySpark 코드 스니펫을 제공하므로, PySpark에 대한 특정 지식은 필요하지 않지만, 코드(예: SQL, Java, Python, R)을 사용하여 데이터를 변환하는 데 대한 기본적인 이해는 개념적인 이점을 제공할 것입니다.
  • Git ↗의 소스 코드 관리 워크플로에 대한 일반적인 익숙함(브랜치 및 병합)은 유용하지만 필수는 아닙니다.

결과

이전 튜토리얼에서 권장되는 파이프라인 프로젝트 구조를 구현하는 일련의 폴더를 생성했습니다. 이제 Code Repositories 애플리케이션을 사용하여 파이프라인의 초기 데이터셋을 생성하게 됩니다.

훈련 편의를 위해, 이전 튜토리얼에서 구축한 Datasource Project에 시작 원시 데이터셋의 복사본을 생성하는 것으로 시작합니다. 세 가지 원시 데이터셋을 다루게 될 것입니다. 첫 번째 데이터셋은 비행 경보에 대한 데이터를 포함하며, 경보의 상태와 우선 순위를 나타내는 열이 포함되어 있습니다. 원시 형태에서는 이 두 열은 매핑 테이블로 사용되는 다른 두 원시 데이터셋을 사용하여 매핑해야 하는 숫자 값만 포함합니다(예: 데이터셋 A의 "1" 우선 순위는 데이터셋 B를 사용하여 "High"로 변환해야 합니다).

그런 다음 PySpark를 사용하여 일부 기본 클리닝 유틸리티를 사용하여 데이터를 정규화하고 포맷합니다. 원시 파일 간의 매핑을 수행하기 전에 멈추게 됩니다 - 첫 번째 목표는 단순히 전처리하여 추가 클리닝 및 최종적인 조인을 위해 (다음 튜토리얼에서) 준비하는 것입니다. 간단히 말해서, 이 훈련의 입력은 상류 소스에서 시뮬레이션된 원시 데이터셋이고, 결과물은 다음 튜토리얼에서 추가로 정리할 수 있도록 포맷된 "전처리된" 데이터셋입니다.

🥅 학습 목표

  1. Code Repositories 환경 탐색하기.
  2. 데이터 변환의 기본 구조 배우기.
  3. Foundry Code Repositories에서 코드 관리 작업 이해하기.
  4. PySpark 데이터 변환 작성 연습하기.
  5. 데이터 파이프라인 개발에서 전처리와 클리닝의 중요성 이해하기.
  6. 데이터 변환을 위한 Code Repositories 생성 및 구성의 기본 패턴 이해하기.

💪 Foundry 기술

  • Foundry Code Repositories 부트스트랩하기.
  • 재사용 가능한 코드 유틸리티 생성 및 구현하기.
  • 브랜치 생성 및 파이프라인 문서화 최상의 관행 구현하기.