5C. [Code Repositories] 데이터 변환을 통한 다중 출력3 - "변환된" 데이터셋에 대한 코드 추가

본 번역은 검증되지 않았습니다. AIP를 통해 영문원문으로부터 번역되었습니다.

3 - "변환된" 데이터셋에 대한 코드 추가

이 내용은 learn.palantir.com ↗에서도 사용할 수 있으며 접근성을 위해 여기에 제시되었습니다.

📖 작업 소개

여러 데이터셋 결과물을 생성하는 변환 코드를 추가하기 전에, PySpark를 사용하여 항공편 경보 및 승객 데이터 소스 프로젝트의 세 가지 clean 결과물 데이터셋을 단순히 결합해 보겠습니다. 이는 /transformed 코드 폴더에서 수행할 "사전 작업"의 유형입니다.

🔨 작업 지시사항

  1. 리포지토리에서 /transformed 폴더를 마우스 오른쪽 버튼으로 클릭하고, flight_alerts_joined_passengers.py라는 새 파일을 추가합니다.

  2. 새로운 파이썬 변환 파일의 기본 코드를 아래 코드 블록으로 교체합니다.

    from transforms.api import transform_df, Input, Output
    
    
    @transform_df(
        Output("/${space}/Temporary Training Artifacts/${yourName}/Data Engineering Tutorials/Transform Project: Alert Metrics/data/transformed/flight_alerts_joined_passengers"),
        flight_alerts_df=Input("${flight_alerts_clean_RID}"),
        passengers_df=Input("${passengers_clean_RID}"),
        join_table_df=Input("${passenger_flight_alerts_clean_RID}"),
    )
    def compute(flight_alerts_df, passengers_df, join_table_df):
    
        # join flight alert data to passenger data by using the passenger_flight_alerts_clean join table
        joined_df = (
            flight_alerts_df
            .join(join_table_df, on='alert_display_name', how='left')
            .join(passengers_df, on='passenger_id', how='left')
        )
    
        return joined_df
    
  3. 코드에서 다음 줄을 교체합니다:

    • ${space}본인의 스페이스로 교체합니다.

    • ${yourName}본인의 /Tutorial Practice Artifacts 폴더 이름으로 교체합니다.

    • ${flight_alerts_clean_RID}본인의 Datasource Project: Flight Alerts 프로젝트의 flight_alerts_clean 데이터셋의 RID로 교체합니다.

    • ${passengers_clean_RID}본인의 Datasource Project: Passengers 프로젝트의 passengers_clean 데이터셋의 RID로 교체합니다.

    • ${passenger_flight_alerts_clean_RID}본인의 Datasource Project: Passengers 프로젝트의 passenger_flight_alerts_clean 데이터셋의 RID로 교체합니다.

      • ℹ️ 코드에서 참조할 데이터셋을 검색하려면 리포지토리의 Foundry Explorer 도우미를 사용할 수 있다는 것을 알고 계셨나요? 도우미를 열고 원하는 데이터셋이 있는 폴더 경로를 따라가서 데이터셋을 클릭한 후 아래와 같이 Details 섹션에서 폴더 경로 또는 RID를 가져옵니다 (RID를 가져오려면 Show more 링크를 클릭하여 추가 세부사항을 표시해야 합니다).
  4. 미리보기 버튼을 사용하여 코드의 결과물을 테스트합니다.

  5. 합리적이고 설명적인 메시지(예: “기능: 결합된 데이터셋 추가”)와 함께 코드를 브랜치에 커밋합니다.

  6. 브랜치에서 코드를 빌드하고 성공적으로 완료되는지 확인합니다.

  7. 성공한 경우 PR 과정을 완료하고 브랜치를 Master로 병합합니다.

  8. Master 브랜치에서 코드를 빌드합니다.