2. [Pipeline Builder] 데이터 변환 소개5 - 전처리 파이프라인 추가하기

본 번역은 검증되지 않았습니다. AIP를 통해 영문원문으로부터 번역되었습니다.

5 - 전처리 파이프라인 추가하기

이 내용은 learn.palantir.com ↗에서도 확인할 수 있으며, 접근성을 위해 여기에도 제공됩니다.

📖 작업 소개

원시 데이터 값 중 일부는 최적의 형식으로 포맷되어 있지 않습니다. 이 연습에서는 Pipeline Builder 변환을 사용하여 데이터를 전처리합니다. 파이프라인 초기에 수정하려는 이상현상은 다음과 같습니다(하지만 이에 한정되지 않습니다):

  • flight_alerts_raw의 flightDate 열은 현재 스트링 유형이지만 날짜 유형이어야 합니다.
  • 두 매핑 데이터셋의 매핑된 *값 열에는 공백이 추가되어 있고, 텍스트는 소문자로 되어 있으며, 문자에 의해 구분됩니다. 현재 값인 "·······open_and_assigned."보다는 "Open and Assigned"를 선호합니다.

이전 연습에서 "raw" 파이프라인의 입력을 이 단계의 입력으로 사용하게 됩니다. 현재 Pipeline Builder에서는 지정된 결과물에 변환을 추가할 수 없습니다. 따라서 /preprocessed 폴더 경로에 새로운 Pipeline Builder 아티팩트를 생성하고, 방금 /raw에서 생성한 데이터셋을 입력으로 사용하게 됩니다.

🔨 작업 지시사항

  1. ../Datasource Project: Flight Alerts/datasets/preprocessed/ 폴더를 엽니다.
  2. 새로운 배치 파이프라인을 생성하고 flight_alerts_datasource_preprocessed라고 이름을 붙입니다.
  3. 데이터셋 추가 버튼을 사용하여 ../raw 폴더에 있는 세 개의 데이터셋을 가져옵니다.
  4. 이 데이터셋에 색상 및 관련 레이블을 적용하는 것을 고려해 보세요(예: “Raw”).