이 콘텐츠는 learn.palantir.com ↗에서도 사용할 수 있으며, 접근성을 위해 여기에 제공됩니다.
새로운 clean 폴더에 passengers_clean.py
라는 새로운 파이썬 파일을 추가하고, 기본 내용을 아래 코드 블록으로 대체하세요.
from transforms.api import transform_df, Input, Output
from pyspark.sql import functions as F
from cleaning_functions import type_utils as types, cleaning_utils as clean
@transform_df(
Output("/${space}/Temporary Training Artifacts/${yourName}/Data Engineering Tutorials/Datasource Project: Passengers/data/clean/passengers_clean"),
source_df=Input("${passengers_preprocessed_RID}"),
)
def compute(source_df):
# 정규화할 문자열 열 정의
normalize_string_columns = [
'first_name',
'last_name',
'flyer_status',
]
# 날짜로 변환할 열 정의
cast_date_columns = [
'dob',
]
# utils 파일의 함수를 사용하여 열을 적절한 유형으로 변환
typed_df = types.cast_to_date(source_df, cast_date_columns, "MM/dd/yy")
# utils 파일의 함수를 사용하여 문자열 및 열 이름 정규화
normalized_df = clean.normalize_strings(typed_df, normalize_string_columns)
normalized_df = clean.normalize_column_names(normalized_df)
# 원하는 순서대로 열 선택하고 적절한 이름으로 변경
normalized_df = normalized_df.select(
'passenger_id',
'first_name',
'last_name',
'country',
F.col('dob').alias('date_of_birth'),
'flyer_status',
)
return normalized_df
다음을 대체하세요:
${space}
를 당신의 공간으로 대체하세요.
${yourName}
를 당신의 /Tutorial Practice Artifacts
폴더 이름으로 대체하세요.
${passengers_preprocessed_RID}
를 passengers_preprocessed.py
에서 정의된 passengers_preprocessed
데이터셋의 RID로 대체하세요.
ℹ️ Code Assist가 import 문을 빨간색으로 표시하면 저장소의 meta.yml
파일을 열고 에디터 상단의 Refresh Code Assist dependencies 링크를 선택하세요.
미리보기 버튼을 사용하여 변환의 샘플 결과물을 확인하세요.
ℹ️ 미리보기 도우미에서는 INPUTS와 OUTPUTS 블록을 왼쪽에 차례로 클릭하여 입력 샘플과 출력 샘플을 빠르게 전환하고 결과를 비교할 수 있습니다.
/datasets
폴더에 passenger_flight_alerts_clean.py
라는 새 파일을 만들고, 기본 코드를 아래 코드 블록으로 대체하세요.
from transforms.api import transform_df, Input, Output
from cleaning_functions import cleaning_utils as clean
@transform_df(
Output("/${space}/Temporary Training Artifacts/${yourName}/Data Engineering Tutorials/Datasource Project: Passengers/data/clean/passenger_flight_alerts_clean"),
source_df=Input("${passenger_flight_alerts_preprocessed_RID}"),
)
def compute(source_df):
# utils 파일의 함수를 사용하여 열 이름 정규화
normalized_df = clean.normalize_column_names(source_df)
return normalized_df
passenger_flight_alerts_clean.py
변환 파일에 대해 2단계와 3단계를 반복하세요. {$passenger_flight_alerts_preprocessed_RID}
자리 표시자에 대해, 저장소의 passenger_flight_alerts_preprocessed.py
변환 파일을 참조하여 결과물 RID를 가져옵니다.
의미있는 메시지를 포함하여 (예: “기능: 깨끗한 결과물 추가”) 브랜치에 새로운 코드를 커밋하세요.
브랜치에서 깨끗한 데이터셋을 빌드하고 데이터가 정규화되고 적절한 형식으로 포맷되어 있는지 확인하세요. 예를 들어, passengers_preprocessed
데이터셋(Master
에서)과 브랜치의 passengers_clean
을 비교할 수 있습니다.
코드 파일에서 Input 경로를 RID로 바꾸려면 Replace paths with RIDs 링크를 사용하세요. 이렇게 하면 코드 변경 사항이 있으므로 새로운 커밋이 필요합니다.
브랜치에서 빌드가 성공하면 PR을 만들고 브랜치를 Master
에 병합하세요.
Master
브랜치에서 깨끗한 결과물을 빌드하세요.