2. [Repositories] Introduction to Data Transformations15 - タイプユーティリティの作成
Warning

注: 以下の翻訳の正確性は検証されていません。AIPを利用して英語版の原文から機械的に翻訳されたものです。

15 - タイプユーティリティの作成

learn.palantir.com でも以下の内容をご覧いただけますが、アクセシビリティの観点から、ここに掲載しています。

📖 タスクの概要

このタスクでは、データ正規化手段を引き続き取り組み、今回は特にスキーマまたはタイプに焦点を当てます。これにより、リポジトリが作成された際に提供された utils.py ファイルの名前を変更し、目的を変更します。

🔨 タスクの説明

  1. リポジトリのファイルパネルで utils.py ファイルを右クリックし、それを type_utils.py に名前を変更します。

  2. コードエディターウィンドウのファイルの内容を削除します(例:ctrl+a → Delete)。

  3. 以下のコードブロックをコピーし、コードエディタに貼り付けます。

    コードコメントで説明されている機能が、上記で説明されているスキーマ/タイプの問題に対処する方法に注意してください。

    
    from pyspark.sql import functions as F
    from pyspark.sql.types import StringType
    
    
    def cast_to_string(df, string_columns):
        """
        This function takes a dataframe (df) and an array of columns as arguments
        This function iterates through the list of columns in the dataframe and
        converts them to string types
        """
        for colm in string_columns:
            df = df.withColumn(colm, F.col(colm).cast(StringType()))
        return df
    
    
    def cast_to_date(df, string_columns, date_format):
        """
        This function takes a dataframe (df), an array of string columns, and a date format (string) as arguments
        This function iterates through the list of string columns in the dataframe and
        converts them to date types based on the specified date format
        Example date format: "MM-dd-yyyy"
        """
        for colm in string_columns:
            df = df.withColumn(colm, F.to_date(F.col(colm), date_format))
        return df
    
  4. 以下のメッセージでコードをコミットします: “feature: add type utils。”