2. [Pipeline Builder] 데이터 변환 소개6 - 전처리 로직: 비행 경보

본 번역은 검증되지 않았습니다. AIP를 통해 영문원문으로부터 번역되었습니다.

6 - 전처리 로직: 비행 경보

이 내용은 learn.palantir.com ↗에서도 제공되며 접근성을 위해 여기에 게시됩니다.

📖 작업 소개

이제 파이프라인 아티팩트가 생성되었으므로, 몇 가지 Pipeline Builder 변환을 사용하여 확인된 형식 문제를 수정할 차례입니다. flight_alerts 데이터의 다음 문제를 해결하기로 합시다:

  • 열 이름이 다양한 형식으로 나타나며 "snake case"(예: flightDate에서 flight_date로)로 표준화해야 합니다.
  • 카테고리 열 값이 정규화되어야 합니다.
  • flightDate 열은 날짜로 캐스트해야 합니다.
  • 우선 순위와 상태 열은 정수에서 문자열로 캐스트해야 합니다. 값이 실제로 정수이지만, 수학적 연산이 포함될 경우에만 정수 값을 사용하는 것이 모범 사례입니다.

🔨 작업 지시사항

  1. 파이프라인에 flight_alerts_raw 노드에 변환을 추가합니다.

  2. 애플리케이션의 왼쪽 상단 구석에 변환의 이름을 Preprocess flight_alerts로 지정합니다.

  3. 다음 변환을 적용합니다:

    • 열 이름 정규화
    • 공백 제거 (category에 적용)
    • 타이틀 케이스 (category에 적용)
    • flight_datedate캐스트하며, 형식으로 M/d/yy를 사용합니다.
    • prioritystatusstring으로 캐스트합니다.
    • 애플리케이션 하단의 데이터셋 미리보기 창을 사용하여 작업 소개에서 언급한 데이터 문제가 실제로 해결되었는지 확인합니다.
    • 화면의 오른쪽에서 ⊕ 파이프라인 결과물 추가 버튼을 클릭합니다.
    • 결과물의 이름을 flight_alerts_preprocessed로 지정합니다.
    • 파이프라인을 저장합니다.