注: 以下の翻訳の正確性は検証されていません。AIPを利用して英語版の原文から機械的に翻訳されたものです。
learn.palantir.com でも以下の内容をご覧いただけますが、アクセシビリティの観点から、ここに掲載しています。
このタスクでは、データ正規化手段を引き続き取り組み、今回は特にスキーマまたはタイプに焦点を当てます。これにより、リポジトリが作成された際に提供された utils.py
ファイルの名前を変更し、目的を変更します。
リポジトリのファイルパネルで utils.py
ファイルを右クリックし、それを type_utils.py
に名前を変更します。
コードエディターウィンドウのファイルの内容を削除します(例:ctrl+a → Delete)。
以下のコードブロックをコピーし、コードエディタに貼り付けます。
コードコメントで説明されている機能が、上記で説明されているスキーマ/タイプの問題に対処する方法に注意してください。
from pyspark.sql import functions as F
from pyspark.sql.types import StringType
def cast_to_string(df, string_columns):
"""
This function takes a dataframe (df) and an array of columns as arguments
This function iterates through the list of columns in the dataframe and
converts them to string types
"""
for colm in string_columns:
df = df.withColumn(colm, F.col(colm).cast(StringType()))
return df
def cast_to_date(df, string_columns, date_format):
"""
This function takes a dataframe (df), an array of string columns, and a date format (string) as arguments
This function iterates through the list of string columns in the dataframe and
converts them to date types based on the specified date format
Example date format: "MM-dd-yyyy"
"""
for colm in string_columns:
df = df.withColumn(colm, F.to_date(F.col(colm), date_format))
return df
以下のメッセージでコードをコミットします: “feature: add type utils。”