이 내용은 learn.palantir.com ↗에서도 사용할 수 있으며 접근성을 위해 여기에 제시됩니다.
Foundry의 데이터 변환을 실행하는 계산 엔진은 Spark입니다: 빠르고 대규모의 데이터 처리 및 분석을 위한 오픈 소스 분산 클러스터 컴퓨팅 프레임워크입니다. Spark는 Parquet이라는 데이터 파일 유형에서 가장 효율적으로 작동하며, 기본적으로 Foundry는 출력 데이터셋을 분산 Parquet 파일의 시리즈로 변환합니다.
모든 것이 동일하다면, Parquet 파일로 구성된 데이터셋은 항상 다른 데이터 형식보다 Spark에서 효율적으로 계산됩니다. 그러나 비선형 형식의 파일(XML 또는 JSON과 같은)을 처리하려 할 수도 있습니다. 이 튜토리얼에서는 이전 튜토리얼에서 사용한 @transform_df
와 비교하여 Foundry 데이터셋에서 파일을 읽고 쓰는 데 필요한 기본 사항을 검토합니다.
파이프라인 개발의 다음 단계에 필요한 파일은 비Parquet 형식이며, 코드로 직접 변환을 위해 접근해야 합니다.
데이터 파이프라인은 깨끗한 비행 알림 데이터와 몇 가지 매핑 파일로 구성되어 있지만, 포괄적인 프로젝트에 포함시키고 싶은 다른 데이터 소스가 있습니다: 이러한 비행 알림과 관련된 승객입니다. 예를 들어, 팀은 비행 지연/알림 심각도와 고객 상태를 기반으로 여행 바우처를 할당하는 워크플로를 하류에서 활성화하려고 결정했을 수 있으며, 파이프라인에 승객 데이터를 통합하는 것은 해당 상호 작용 패턴을 지원하기 위한 온톨로지 프레임워크를 생성하는 데 필요한 단계입니다.
이 튜토리얼의 목표는 Foundry에서 CSV와 JSON 파일을 직접 액세스하고 구문 분석하는 또 다른 데이터 변환 패턴을 드러내는 것입니다. 비선형 형식의 데이터가 일회성으로 업로드되었는지 외부 소스에서 발생하는지에 관계없이, 이 강좌의 방법은 데이터 엔지니어의 변환 기술 모음에서 중요한 부분이 될 것입니다.
@transform()
데코레이터를 사용하여 Foundry에서 원시 파일에 액세스하기.