2. [Code Repositories] 데이터 변환 소개15 - 타입 유틸리티 생성

본 번역은 검증되지 않았습니다. AIP를 통해 영문원문으로부터 번역되었습니다.

15 - 타입 유틸리티 생성

이 콘텐츠는 learn.palantir.com ↗에서도 사용할 수 있으며 접근성을 위해 여기에 제공됩니다.

📖 작업 소개

이 작업에서는 데이터 정규화 조치를 계속 처리하고, 이번에는 구체적으로 스키마 또는 타입을 처리합니다. 이를 위해 저장소가 생성되었을 때 제공한 utils.py 파일의 이름을 바꾸고 다시 사용할 것입니다.

🔨 작업 지침

  1. 저장소의 Files 패널에서 utils.py 파일을 마우스 오른쪽 버튼으로 클릭한 다음 이름을 type_utils.py로 변경합니다.

  2. 코드 에디터 창에서 파일의 내용을 삭제합니다 (예: ctrl+a → 삭제).

  3. 아래 코드 블록을 복사한 다음 코드 에디터에 붙여넣습니다.

    코드 주석에 설명된 기능이 위에서 설명한 스키마/타입 문제를 처리하는 방법에 주목하세요.

    
    from pyspark.sql import functions as F
    from pyspark.sql.types import StringType
    
    
    def cast_to_string(df, string_columns):
        """
        이 함수는 데이터프레임(df)과 열 배열을 인수로 사용합니다.
        이 함수는 데이터프레임의 열 목록을 반복하고
        스트링 타입으로 변환합니다.
        """
        for colm in string_columns:
            df = df.withColumn(colm, F.col(colm).cast(StringType()))
        return df
    
    
    def cast_to_date(df, string_columns, date_format):
        """
        이 함수는 데이터프레임(df), 스트링 열 배열, 날짜 형식(스트링)을 인수로 사용합니다.
        이 함수는 데이터프레임의 스트링 열 목록을 반복하고
        지정된 날짜 형식에 따라 날짜 타입으로 변환합니다.
        예제 날짜 형식: "MM-dd-yyyy"
        """
        for colm in string_columns:
            df = df.withColumn(colm, F.to_date(F.col(colm), date_format))
        return df
    
  4. 다음 메시지와 함께 코드를 커밋합니다: “기능: 타입 유틸리티 추가.”