이 내용은 learn.palantir.com ↗에서도 사용할 수 있으며 접근성을 위해 여기에 제시되었습니다.
여러 데이터셋 결과물을 생성하는 변환 코드를 추가하기 전에, PySpark를 사용하여 항공편 경보 및 승객 데이터 소스 프로젝트의 세 가지 clean 결과물 데이터셋을 단순히 결합해 보겠습니다. 이는 /transformed
코드 폴더에서 수행할 "사전 작업"의 유형입니다.
리포지토리에서 /transformed
폴더를 마우스 오른쪽 버튼으로 클릭하고, flight_alerts_joined_passengers.py라는 새 파일을 추가합니다.
새로운 파이썬 변환 파일의 기본 코드를 아래 코드 블록으로 교체합니다.
from transforms.api import transform_df, Input, Output
@transform_df(
Output("/${space}/Temporary Training Artifacts/${yourName}/Data Engineering Tutorials/Transform Project: Alert Metrics/data/transformed/flight_alerts_joined_passengers"),
flight_alerts_df=Input("${flight_alerts_clean_RID}"),
passengers_df=Input("${passengers_clean_RID}"),
join_table_df=Input("${passenger_flight_alerts_clean_RID}"),
)
def compute(flight_alerts_df, passengers_df, join_table_df):
# join flight alert data to passenger data by using the passenger_flight_alerts_clean join table
joined_df = (
flight_alerts_df
.join(join_table_df, on='alert_display_name', how='left')
.join(passengers_df, on='passenger_id', how='left')
)
return joined_df
코드에서 다음 줄을 교체합니다:
${space}
를 본인의 스페이스로 교체합니다.
${yourName}
을 본인의 /Tutorial Practice Artifacts
폴더 이름으로 교체합니다.
${flight_alerts_clean_RID}
을 본인의 Datasource Project: Flight Alerts 프로젝트의 flight_alerts_clean
데이터셋의 RID로 교체합니다.
${passengers_clean_RID}
을 본인의 Datasource Project: Passengers 프로젝트의 passengers_clean
데이터셋의 RID로 교체합니다.
${passenger_flight_alerts_clean_RID}
을 본인의 Datasource Project: Passengers 프로젝트의 passenger_flight_alerts_clean
데이터셋의 RID로 교체합니다.
미리보기 버튼을 사용하여 코드의 결과물을 테스트합니다.
합리적이고 설명적인 메시지(예: “기능: 결합된 데이터셋 추가”)와 함께 코드를 브랜치에 커밋합니다.
브랜치에서 코드를 빌드하고 성공적으로 완료되는지 확인합니다.
성공한 경우 PR 과정을 완료하고 브랜치를 Master
로 병합합니다.
Master
브랜치에서 코드를 빌드합니다.