이 내용은 learn.palantir.com ↗에서도 확인할 수 있으며, 접근성을 위해 여기에 제시되었습니다.
항상 문서화하세요. Foundry 애플리케이션과 데이터 파이프라인을 지원하는 프로젝트 구조는 현재와 미래의 팀이 데이터 변환에 관련된 중요한 사실을 알 수 있도록 충분한 기회를 제공합니다. 데이터를 사전 처리한 후, 이를 정리하고 하류에서 사용할 수 있도록 준비하는 단계입니다. 이는 완벽한 변환 구문뿐만 아니라 모든 단계의 범위와 논리를 문서화하는 것을 의미합니다.
이 튜토리얼에서는 프로젝트의 "깨끗한" 결과물을 엔지니어링하여 하류 파이프라인 및 유즈케이스에서 사용될 수 있게 합니다. 구현할 코드는 데이터 입력을 변환하기 위한 일반적인 PySpark 기능을 사용하며, 튜토리얼의 상당 부분은 PySpark 모범 사례에 대해 설명하는 선택된 관련 문서 항목을 탐색하는 것을 필요로 합니다. 그러나 PySpark 구문 패턴을 가르치는 것은 이 강좌의 범위를 벗어납니다.