5A. [Code Repositories] 코드 리포지토리에서 원시 파일 다루기1 - 이 강좌에 대하여

본 번역은 검증되지 않았습니다. AIP를 통해 영문원문으로부터 번역되었습니다.

1 - 이 강좌에 대하여

이 내용은 learn.palantir.com ↗에서도 사용할 수 있으며 접근성을 위해 여기에 제시됩니다.

Foundry의 데이터 변환을 실행하는 계산 엔진은 Spark입니다: 빠르고 대규모의 데이터 처리 및 분석을 위한 오픈 소스 분산 클러스터 컴퓨팅 프레임워크입니다. Spark는 Parquet이라는 데이터 파일 유형에서 가장 효율적으로 작동하며, 기본적으로 Foundry는 출력 데이터셋을 분산 Parquet 파일의 시리즈로 변환합니다.

모든 것이 동일하다면, Parquet 파일로 구성된 데이터셋은 항상 다른 데이터 형식보다 Spark에서 효율적으로 계산됩니다. 그러나 비선형 형식의 파일(XML 또는 JSON과 같은)을 처리하려 할 수도 있습니다. 이 튜토리얼에서는 이전 튜토리얼에서 사용한 @transform_df와 비교하여 Foundry 데이터셋에서 파일을 읽고 쓰는 데 필요한 기본 사항을 검토합니다.

파이프라인 개발의 다음 단계에 필요한 파일은 비Parquet 형식이며, 코드로 직접 변환을 위해 접근해야 합니다.

⚠️ 강좌 사전 요구사항

  • 데이터 파이프라인 예약: 이전 강좌를 아직 완료하지 않았다면 지금 수행하십시오.
  • Spark 및 분산 컴퓨팅에 대한 기본 이해는 데이터셋 구조에 대해 이야기하기 시작할 때 도움이 되지만 필수는 아닙니다.

결과

데이터 파이프라인은 깨끗한 비행 알림 데이터와 몇 가지 매핑 파일로 구성되어 있지만, 포괄적인 프로젝트에 포함시키고 싶은 다른 데이터 소스가 있습니다: 이러한 비행 알림과 관련된 승객입니다. 예를 들어, 팀은 비행 지연/알림 심각도와 고객 상태를 기반으로 여행 바우처를 할당하는 워크플로를 하류에서 활성화하려고 결정했을 수 있으며, 파이프라인에 승객 데이터를 통합하는 것은 해당 상호 작용 패턴을 지원하기 위한 온톨로지 프레임워크를 생성하는 데 필요한 단계입니다.

이 튜토리얼의 목표는 Foundry에서 CSV와 JSON 파일을 직접 액세스하고 구문 분석하는 또 다른 데이터 변환 패턴을 드러내는 것입니다. 비선형 형식의 데이터가 일회성으로 업로드되었는지 외부 소스에서 발생하는지에 관계없이, 이 강좌의 방법은 데이터 엔지니어의 변환 기술 모음에서 중요한 부분이 될 것입니다.

🥅 학습 목표

  1. Code Repositories 애플리케이션에서 변환을 통한 원시 파일 액세스 이해하기.
  2. 비선형 파일을 Parquet으로 구문 분석하기 위해 Foundry API와 패키지 사용하기.

💪 Foundry 기술

  • @transform() 데코레이터를 사용하여 Foundry에서 원시 파일에 액세스하기.
  • 추가 파이썬 라이브러리를 사용하여 비Parquet 데이터 구문 분석하기.
  • Foundry Explorer 헬퍼 사용하기.