注: 以下の翻訳の正確性は検証されていません。AIPを利用して英語版の原文から機械的に翻訳されたものです。
このタスクでは、データの正規化対策を続けて行い、今回は特にスキーマまたはタイプに注目します。このために、リポジトリが作成されたときに提供された utils.py
ファイルの名前を変更し、別の目的で使用します。
リポジトリの Files パネルで utils.py
ファイルを右クリックし、それを type_utils.py
にリネームします。
コードエディタウィンドウのファイルの内容を削除します(例:ctrl + a → Delete)。
以下のコードブロックをコピーし、コードエディタに貼り付けます。
コードコメントで説明されている機能が、上記で説明されたスキーマ/タイプの問題に対処していることに注意してください。
from pyspark.sql import functions as F
from pyspark.sql.types import StringType
def cast_to_string(df, string_columns):
"""
この関数は、データフレーム(df)と列の配列を引数として受け取ります
この関数は、データフレームの列のリストを反復処理し、
それらを文字列型に変換します
"""
for colm in string_columns:
df = df.withColumn(colm, F.col(colm).cast(StringType()))
return df
def cast_to_date(df, string_columns, date_format):
"""
この関数は、データフレーム(df)、文字列列の配列、および日付形式(文字列)を引数として受け取ります
この関数は、データフレームの文字列列のリストを反復処理し、
指定された日付形式に基づいて日付型に変換します
日付形式の例:"MM-dd-yyyy"
"""
for colm in string_columns:
df = df.withColumn(colm, F.to_date(F.col(colm), date_format))
return df
以下のメッセージでコードをコミットします:“feature: add type utils.”