이 내용은 learn.palantir.com ↗에도 사용 가능하며, 이곳에서는 접근성을 위해 제시됩니다.
현재, 데이터 엔지니어링 교육 트랙은 데이터 수집 과정이 끝나는 곳에서 시작됩니다 - 개념적인 상류 소스에서 "복사된" 원시 데이터셋 집합을 가지고 있습니다. Foundry 환경은 이러한 원시 훈련 데이터셋을 제공하며, 이는 편의를 위한 출발점으로 가정합니다. 실제로 원시 데이터셋을 데이터 연결 프로세스를 통해 수집하고, 그 데이터셋의 전처리 및 정리 버전을 하류 사용을 위해 생성하는 것은 모두 Foundry 데이터 엔지니어링의 연속적인 단계입니다. 데이터 연결 프로세스에 대한 자세한 내용은 관련 제품 문서를 참조하십시오.
팀이 데이터셋과 결과를 달성하기 위해 필요한 변환 단계에 동의하면, Foundry Code Repositories에서 데이터 에셋을 개발하기 시작하는 시간입니다. Code Repository 애플리케이션은 코드를 작성하고, 발행하고, 데이터 변환을 생산 파이프라인의 일부로 빌드할 수 있는 완전히 통합된 도구 모음을 포함하고 있습니다. 여러 Foundry 애플리케이션들이 데이터셋을 변환하고 결과물을 만들 수 있지만(예: Contour, Code Workbook, Preparation, Fusion), 트랙 전체에서 살펴볼 이유로, 생산 파이프라인은 Code Repositories 애플리케이션 또는 Pipeline Builder 애플리케이션에서만 빌드해야 합니다. 이 같은 튜토리얼을 Pipeline Builder를 통해 진행할 수도 있습니다.
이전 튜토리얼에서 권장되는 파이프라인 프로젝트 구조를 구현하는 일련의 폴더를 생성했습니다. 이제 Code Repositories 애플리케이션을 사용하여 파이프라인의 초기 데이터셋을 생성하게 됩니다.
훈련 편의를 위해, 이전 튜토리얼에서 구축한 Datasource Project에 시작 원시 데이터셋의 복사본을 생성하는 것으로 시작합니다. 세 가지 원시 데이터셋을 다루게 될 것입니다. 첫 번째 데이터셋은 비행 경보에 대한 데이터를 포함하며, 경보의 상태와 우선 순위를 나타내는 열이 포함되어 있습니다. 원시 형태에서는 이 두 열은 매핑 테이블로 사용되는 다른 두 원시 데이터셋을 사용하여 매핑해야 하는 숫자 값만 포함합니다(예: 데이터셋 A의 "1" 우선 순위는 데이터셋 B를 사용하여 "High"로 변환해야 합니다).
그런 다음 PySpark를 사용하여 일부 기본 클리닝 유틸리티를 사용하여 데이터를 정규화하고 포맷합니다. 원시 파일 간의 매핑을 수행하기 전에 멈추게 됩니다 - 첫 번째 목표는 단순히 전처리하여 추가 클리닝 및 최종적인 조인을 위해 (다음 튜토리얼에서) 준비하는 것입니다. 간단히 말해서, 이 훈련의 입력은 상류 소스에서 시뮬레이션된 원시 데이터셋이고, 결과물은 다음 튜토리얼에서 추가로 정리할 수 있도록 포맷된 "전처리된" 데이터셋입니다.