1 - 이 강좌에 대하여

이 내용은 learn.palantir.com ↗에서도 확인할 수 있으며, 접근성을 위해 여기에 제시되었습니다.

배경

항상 문서화하세요. Foundry 애플리케이션과 데이터 파이프라인을 지원하는 프로젝트 구조는 현재와 미래의 팀이 데이터 변환에 관련된 중요한 사실을 알 수 있도록 충분한 기회를 제공합니다. 데이터를 사전 처리한 후, 이를 정리하고 하류에서 사용할 수 있도록 준비하는 단계입니다. 이는 완벽한 변환 구문뿐만 아니라 모든 단계의 범위와 논리를 문서화하는 것을 의미합니다.

⚠️ 강좌의 선수 조건

DATAENG 02: 이 트랙의 이전 강좌를 완료하지 않았다면, 지금 수행하세요.
Code Repositories를 생성할 수 있는 필요한 권한. 권한이 필요하다면 프로그램 관리자 또는 Palantir 담당자에게 연락하세요.
코드 기반 데이터 변환에 대한 일반적인 이해: 이 강좌에서는 PySpark 코드 조각을 제공하므로, PySpark에 대한 특정 지식은 필요하지 않지만, 코드(예: SQL, Java, Python, R)를 사용하여 데이터를 변환하는 방법에 대한 기본 이해는 개념적인 이점을 제공할 것입니다.
Git ↗의 소스 코드 관리 워크플로에 대한 일반적인 이해(브랜치 및 병합)는 유용하지만 필수는 아닙니다.

결과

이 튜토리얼에서는 프로젝트의 "깨끗한" 결과물을 엔지니어링하여 하류 파이프라인 및 유즈케이스에서 사용될 수 있게 합니다. 구현할 코드는 데이터 입력을 변환하기 위한 일반적인 PySpark 기능을 사용하며, 튜토리얼의 상당 부분은 PySpark 모범 사례에 대해 설명하는 선택된 관련 문서 항목을 탐색하는 것을 필요로 합니다. 그러나 PySpark 구문 패턴을 가르치는 것은 이 강좌의 범위를 벗어납니다.

🥅 학습 목표

사전 처리와 정리 사이의 차이 이해하기.
파이프라인의 데이터소스 단계를 문서화하기.

💪 Foundry 능력

다중 입력 변환 파일 생성하기.
Contour를 사용하여 제안된 데이터 변환을 검증하기.
Data Lineage 그래프를 데이터소스 프로젝트 세그먼트의 생산 파이프라인에 대한 관련 문서로 생성하기.
Code Repositories에서 README 파일 생성하기.