5C. [Code Repositories] 데이터 변환을 통한 다중 출력1 - 이 과정에 대하여

본 번역은 검증되지 않았습니다. AIP를 통해 영문원문으로부터 번역되었습니다.

1 - 이 과정에 대하여

이 내용은 learn.palantir.com ↗에서도 확인할 수 있으며, 접근성을 위해 여기에 제공됩니다.

데이터소스 프로젝트가 깨끗한 결과물을 생성한 후, 파이프라인의 다음 단계인 변환 프로젝트가 온톨로지 레이어에 데이터를 공급하기 위해 준비합니다. 이러한 프로젝트들은 하나 이상의 데이터소스 프로젝트에서 정리된 데이터셋을 가져와서 값을 확장하기 위해 조회 데이터셋과 결합하거나, 오브젝트 중심이나 시간 중심의 데이터셋을 생성하기 위해 관계를 정규화하거나 비정규화하거나, 표준 공유 측정치를 생성하기 위해 데이터를 집계합니다.

데이터 엔지니어링 교육 트랙에서 이 시점까지, 당신은 단일 데이터셋을 결과물로 내는 코드 기반의 데이터 변환을 작성했습니다. Foundry 변환 API는 단일 변환 파일에서 여러 결과물을 생성하는 두 가지 이상의 방법을 제공합니다. 이것은 입력을 구별되는 부분으로 프로그래밍 방식으로 분리하려는 경우에 도움이 됩니다. 이 튜토리얼에서는 파이프라인을 변환 프로젝트 단계로 가져가면서 단일 변환에서 여러 데이터셋을 출력하는 가능한 방법 중 하나를 살펴볼 것입니다.

⚠️ 과정 선수 조건

  • DATAENG 05b: 이 트랙의 이전 과정을 아직 완료하지 않았다면 지금 수행하십시오.

결과

이 튜토리얼의 연습은 데이터소스 프로젝트: 항공 경보데이터소스 프로젝트: 승객에서 깨끗한 결과물을 가져와서 멀티-결과물 파이썬 변환의 개념을 사용하여 추가로 처리합니다. 먼저 항공 경보 데이터와 승객 데이터를 결합하는 중간 변환을 생성합니다. 그런 다음 승객 국가에 기반한 경보의 개별 데이터셋을 생성하는 멀티-결과물 변환을 생성합니다.

🥅 학습 목표

  1. 생산 파이프라인의 변환 프로젝트 단계에 익숙해지기.
  2. 단일 변환 파일에서 하나 이상의 데이터셋 결과물을 생산할 수 있는 멀티-결과물 변환과 생성된 변환 간의 차이점 이해하기.

💪 Foundry 스킬

  • 생산 데이터 파이프라인의 변환 프로젝트 부분을 생성, 일정 설정, 문서화하기.
  • 생성된멀티-결과물 파이썬 변환을 작성하기.