이 콘텐츠는 learn.palantir.com ↗에서도 사용할 수 있으며 접근성을 위해 여기에 제공됩니다.
DATAENG 학습 경로는 현재 외부 소스와의 연결이 이미 설정되어 있다고 가정하며, 해당 소스는 원시, "복사된" 데이터셋을 제공합니다. 편의상 Foundry 환경에는 이런 원시 훈련 데이터셋이 준비되어 있습니다. 실제로는 데이터 연결 프로세스를 통한 원시 데이터셋의 통합과 이러한 데이터셋의 사전 처리 및 청소 버전을 downstream 사용을 위해 생성하는 것 모두 Foundry 데이터 엔지니어링의 연속적인 단계입니다. Data Connection 프로세스에 대한 자세한 내용은 관련 제품 문서를 참조하십시오.
팀이 데이터셋과 변환 단계에 동의하면 데이터 에셋 개발을 시작할 차례입니다. Pipeline Builder 애플리케이션은 변환 로직을 구성한 다음 생산 파이프라인의 일부로 새로운 데이터 변환을 빌드할 수 있는 통합된 도구 모음을 포함합니다. Foundry 애플리케이션 중 데이터셋을 변환하고 결과물로 내보낼 수 있는 애플리케이션(예: Code Repositories, Contour, Code Workbook, Preparation, Fusion)이 몇 가지 있지만, 학습 경로에서 알게 될 이유로, 생산 파이프라인은 Pipeline Builder로만 빌드해야 합니다 또는—if specialized code is needed—Code Repositories 애플리케이션을 사용해야 합니다.
이전 튜토리얼에서는 권장 파이프라인 프로젝트 구조를 구현하는 일련의 폴더를 생성했습니다. 이제 Pipeline Builder 애플리케이션을 사용하여 파이프라인의 초기 데이터셋을 생성합니다.
세 개의 원시 데이터셋으로 시작할 것입니다. 첫 번째는 비행 경보에 대한 데이터를 포함하며, 경보의 상태와 우선 순위를 나타내는 컬럼이 포함되어 있습니다. 원시 형태에서 이 두 컬럼은 매핑 테이블로 사용되는 다른 두 개의 원시 데이터셋을 사용하여 문자열로 매핑해야 하는 숫자 값만 포함하고 있습니다(예: 데이터셋 A의 우선 순위 "1"이 데이터셋 B를 사용하여 "High"로 변환되어야 합니다). 그런 다음, 기본 변환을 사용하여 데이터를 정규화하고 형식을 지정하기 위해 Pipeline Builder를 사용합니다. 원시 파일 간의 매핑을 수행하는 것은 멈추게 되며, 첫 번째 목표는 단순히 후속 청소 및 결국 downstream에서 결합을 위해 사전 처리하는 것입니다(다음 튜토리얼에서).
간단히 말해서, 이 교육의 입력은 upstream 소스로부터의 시뮬레이션 원시 데이터 세트이며 결과물은 다음 튜토리얼에서 추가로 청소를 위해 형식화된 "사전 처리된" 데이터셋입니다.