Warning

注: 以下の翻訳の正確性は検証されていません。AIPを利用して英語版の原文から機械的に翻訳されたものです。

3 - ユーザーの「トランスフォームされた」データセットのためのコードを追加する

この内容は learn.palantir.com ↗ でもご覧いただけますが、アクセシビリティの観点から、ここに掲載しています。

📖 タスクの概要

複数のデータセット出力を作成するトランスフォームコードを追加する前に、まず PySpark を使用してユーザーのフライトアラートと乗客データソースプロジェクトから得られた3つのクリーンな出力データセットを単純に結合します。これが /transformed コードフォルダーで行う「事前作業」のタイプです。

🔨 タスクの説明

  1. リポジトリ内の /transformed フォルダーを右クリックし、新しいファイル flight_alerts_joined_passengers.py を追加します。

  2. 新しい Python トランスフォームファイルのデフォルトコードを以下のコードブロックに置き換えます。

    from transforms.api import transform_df, Input, Output
    
    
    @transform_df(
        Output("/${space}/Temporary Training Artifacts/${yourName}/Data Engineering Tutorials/Transform Project: Alert Metrics/data/transformed/flight_alerts_joined_passengers"),
        flight_alerts_df=Input("${flight_alerts_clean_RID}"),
        passengers_df=Input("${passengers_clean_RID}"),
        join_table_df=Input("${passenger_flight_alerts_clean_RID}"),
    )
    def compute(flight_alerts_df, passengers_df, join_table_df):
    
        # join flight alert data to passenger data by using the passenger_flight_alerts_clean join table
        joined_df = (
            flight_alerts_df
            .join(join_table_df, on='alert_display_name', how='left')
            .join(passengers_df, on='passenger_id', how='left')
        )
    
        return joined_df
    
  3. コード内の以下の行を置き換えます:

    • ${space} をユーザーの space

    • ${yourName} をユーザーの /Tutorial Practice Artifacts フォルダー名に

    • ${flight_alerts_clean_RID} をユーザーの Datasource Project: Flight Alerts プロジェクト内の flight_alerts_clean データセットの RID に

    • ${passengers_clean_RID} をユーザーの Datasource Project: Passengers プロジェクト内の passengers_clean データセットの RID に

    • ${passenger_flight_alerts_clean_RID} をユーザーの Datasource Project: Passengers プロジェクト内の passenger_flight_alerts_clean データセットの RID に

      • ℹ️ ユーザーのリポジトリの Foundry Explorer ヘルパーを使用して、コードで参照したいデータセットを検索できることをご存知でしたか?単にヘルパーを開き、目的のデータセットへのフォルダーパスをたどり、データセットをクリックした後、以下に示すように 詳細 セクションからフォルダーパスまたは RID を取得します(RID を取得するには、追加詳細を展開するための 詳細を表示 リンクをクリックする必要があります)。
  4. プレビュー ボタンを使用してコードの出力をテストします。

  5. 合理的で説明的なメッセージ(例:「機能:結合データセットを追加」)でコードをブランチにコミットします。

  6. ブランチ上でコードをビルドし、成功を確認します。

  7. 成功した場合、PR プロセスを完了し、ブランチを Master にマージします。

  8. Master ブランチ上でコードをビルドします。