이 콘텐츠는 learn.palantir.com ↗에서도 사용할 수 있으며 접근성을 위해 여기에 제공됩니다.
이 작업에서는 데이터 정규화 조치를 계속 처리하고, 이번에는 구체적으로 스키마 또는 타입을 처리합니다. 이를 위해 저장소가 생성되었을 때 제공한 utils.py
파일의 이름을 바꾸고 다시 사용할 것입니다.
저장소의 Files 패널에서 utils.py
파일을 마우스 오른쪽 버튼으로 클릭한 다음 이름을 type_utils.py
로 변경합니다.
코드 에디터 창에서 파일의 내용을 삭제합니다 (예: ctrl+a → 삭제).
아래 코드 블록을 복사한 다음 코드 에디터에 붙여넣습니다.
코드 주석에 설명된 기능이 위에서 설명한 스키마/타입 문제를 처리하는 방법에 주목하세요.
from pyspark.sql import functions as F
from pyspark.sql.types import StringType
def cast_to_string(df, string_columns):
"""
이 함수는 데이터프레임(df)과 열 배열을 인수로 사용합니다.
이 함수는 데이터프레임의 열 목록을 반복하고
스트링 타입으로 변환합니다.
"""
for colm in string_columns:
df = df.withColumn(colm, F.col(colm).cast(StringType()))
return df
def cast_to_date(df, string_columns, date_format):
"""
이 함수는 데이터프레임(df), 스트링 열 배열, 날짜 형식(스트링)을 인수로 사용합니다.
이 함수는 데이터프레임의 스트링 열 목록을 반복하고
지정된 날짜 형식에 따라 날짜 타입으로 변환합니다.
예제 날짜 형식: "MM-dd-yyyy"
"""
for colm in string_columns:
df = df.withColumn(colm, F.to_date(F.col(colm), date_format))
return df
다음 메시지와 함께 코드를 커밋합니다: “기능: 타입 유틸리티 추가.”