5C. [Code Repositories] 데이터 변환을 통한 다중 출력6 - 실습 요약

본 번역은 검증되지 않았습니다. AIP를 통해 영문원문으로부터 번역되었습니다.

6 - 실습 요약

이 내용은 learn.palantir.com ↗에서도 확인할 수 있으며 접근성을 위해 이곳에도 제시됩니다.

✅ 결과물

  • 제안된 하위 폴더를 갖춘 /Transform Project: Alert Metrics 프로젝트 폴더.
  • 새로운 flight_alert_metrics_logic 저장소.
  • 파이프라인의 데이터소스 단계에서 깨끗한 결과물을 단순히 결합한 변환된 데이터셋.
  • 탑승객의 출신 국가를 기반으로 (8)개의 결과물을 프로그래밍 방식으로 생성한 생성된 변환.
  • 탑승객의 flyer_status와 경고 priority로 필터링된 데이터프레임을 (3)개의 별도의 데이터셋에 작성하는 다중 출력 변환.

✅ 학습내용

  1. Transform Project는 일반적으로 소스를 결합하고 추가적인 비즈니스 로직을 적용하여 온톨로지 준비 데이터셋을 생성합니다. 일반적으로 이러한 데이터셋은 일반적인 용도로 사용하기 위한 것이 아닙니다.

  2. 저장소의 Foundry Explorer 도우미를 화면의 왼쪽 하단에서 사용하여 코드에서 참조하려는 데이터셋을 검색할 수 있습니다.

  3. fallback branches의 개념을 통해, Foundry 빌드 프로세스는 입력의 Master 브랜치로 "fallback"하게 됩니다. 이는 입력의 해당 브랜치를 찾지 못할 경우 발생합니다. 저장소의 설정 → Branches → Fallback Branches에서 순차적인 fallback 브랜치 동작을 정의할 수도 있습니다.

  4. 방금 완료한 다중 출력 변환 실습에서, 코드는 입력 데이터셋을 단 한 번 읽고 처리합니다. 동일한 데이터 변환 로직을 여러 변환 오브젝트에서 재사용하려면 생성된 변환을 사용하게 됩니다. 예를 들어, 다음과 같은 경우에 생성된 변환을 고려하게 됩니다:

    • 입력 데이터셋에 여러 국가에 대한 정보가 있고, 국가별로 입력을 필터링한 다음 통계를 계산하는 코드가 있습니다.
    • null 값을 포함할 수 있는 여러 입력 데이터셋이 있고, null을 제거하는 코드를 적용하려고 합니다.

이러한 두 경우에는 동일한 데이터 변환 코드를 여러 변환에서 사용하는 것이 유용할 것입니다. 출력물 각각에 대해 변환 오브젝트를 별도로 정의하는 대신, for-loop를 사용하여 변환 오브젝트를 생성할 수 있습니다.