2. [Repositories] データ変換入門15 - タイプユーティリティの作成

注: 以下の翻訳の正確性は検証されていません。AIPを利用して英語版の原文から機械的に翻訳されたものです。

15 - タイプユーティリティの作成

📖 タスクの概要

このタスクでは、データの正規化対策を続けて行い、今回は特にスキーマまたはタイプに注目します。このために、リポジトリが作成されたときに提供された utils.py ファイルの名前を変更し、別の目的で使用します。

🔨 タスクの説明

  1. リポジトリの Files パネルで utils.py ファイルを右クリックし、それを type_utils.py にリネームします。

  2. コードエディタウィンドウのファイルの内容を削除します(例:ctrl + a → Delete)。

  3. 以下のコードブロックをコピーし、コードエディタに貼り付けます。

    コードコメントで説明されている機能が、上記で説明されたスキーマ/タイプの問題に対処していることに注意してください。

    
    from pyspark.sql import functions as F
    from pyspark.sql.types import StringType
    
    
    def cast_to_string(df, string_columns):
        """
        この関数は、データフレーム(df)と列の配列を引数として受け取ります
        この関数は、データフレームの列のリストを反復処理し、
        それらを文字列型に変換します
        """
        for colm in string_columns:
            df = df.withColumn(colm, F.col(colm).cast(StringType()))
        return df
    
    
    def cast_to_date(df, string_columns, date_format):
        """
        この関数は、データフレーム(df)、文字列列の配列、および日付形式(文字列)を引数として受け取ります
        この関数は、データフレームの文字列列のリストを反復処理し、
        指定された日付形式に基づいて日付型に変換します
        日付形式の例:"MM-dd-yyyy"
        """
        for colm in string_columns:
            df = df.withColumn(colm, F.to_date(F.col(colm), date_format))
        return df
    
  4. 以下のメッセージでコードをコミットします:“feature: add type utils.”