5. [Pipeline Builder] Transforms 프로젝트4 - 정리된 결과물 생성

본 번역은 검증되지 않았습니다. AIP를 통해 영문원문으로부터 번역되었습니다.

4 - 정리된 결과물 생성

이 내용은 learn.palantir.com ↗에서도 사용할 수 있으며, 접근성을 위해 여기에 제시되었습니다.

📖 작업 소개

passengers_raw 데이터는 그룹에서 더 넓게 사용하기 전에 몇 가지 정리 단계가 필요합니다:

  • dob 열을 날짜 유형으로 변환
  • JSON 파싱 과정에서 남은 불필요한 열 제거
  • flyer_status 열 정규화

🔨 작업 지시사항

  1. 현재 .../data/raw/ 폴더에 있습니다. .../data/clean/으로 진행하세요.

  2. 새로운 파이프라인 아티팩트인 passengers_datasource_clean을 추가하세요.

  3. 방금 결과물로 출력한 두 데이터셋을 .../raw/ 폴더로 가져오세요.

  4. passenger_flight_alerts_raw는 정리가 필요 없습니다. 그것을 위한 결과물인 passenger_flight_alerts_clean을 생성하세요.

  5. passengers_raw 뒤에 변환 단계를 추가하고 다음 로직을 적용하세요 (필요한 경우 아래 이미지를 참조하세요):

    • dob 열을 문자열 연결을 사용하여 "19"를 연도에 추가한 후 날짜 유형으로 변환(CAST)
    • _error_file삭제
    • flyer_status 열에 대문자 변환(Title Case) 적용

    5단계에서 먼저, 첫 번째 스크린샷에 나와 있는 것처럼 연도 앞에 "19"를 추가하기 위해 문자열 연결을 사용하여 dob 열을 정리하세요. 그것을 **변환(CAST)**하고 두 번째 스크린샷에 나와 있는 다른 정리를 준비하세요.

    5a:

    5b:

  6. 변환 노드의 이름을 Clean Passengers로 지정하세요.

  7. 변환에서 passengers_clean이라는 결과물을 생성하세요.

  8. 그래프의 노드 색상을 원하는대로 변경하세요.

  9. 파이프라인을 저장하고 배포하세요.