이 내용은 learn.palantir.com ↗에서도 확인할 수 있으며 접근성을 위해 여기에 제공됩니다.
데이터 엔지니어링 학습 경로에서 변환 프로젝트를 만든 후에 멈췄습니다. 온톨로지 오브젝트와 링크 유형을 지원할 데이터셋은 Code Repositories에서 온톨로지 프로젝트로 출력되어야 합니다.
이 작업에서는 온톨로지 프로젝트 폴더와 저장소를 설정하고 준비된 데이터셋을 출력하는 코드를 생성합니다. 먼저 Data Lineage 그래프를 열고 flight_alerts_clean
및 passengers_clean
데이터셋을 확인하여 추가 준비가 필요한지 확인합시다.
열린 Data Lineage 그래프에서 flight_alerts_clean
데이터셋 노드를 클릭하고 화면 왼쪽 하단의 미리보기 도우미 탭을 엽니다.
flight_date
열을 제외한 모든 열이 문자열인 것을 알 수 있습니다.미리보기 도우미에서 alert_display_name
옆에 있는 "▾"을 클릭하고 통계 보기를 선택하여 기본 키 고유성을 확인합니다. 값의 히스토그램에서 값이 1회 이상 나타나지 않는지 확인합니다.
데이터셋의 열을 검토하고 "우리의 항공 경보 오브젝트 유형이 모든 알려진 워크플로를 지원하기 위해 이 모든 열을 오브젝트 속성으로 매핑할 필요가 있을까요?"라고 물어봅니다.
category
열이 필요하지 않으며 이 데이터셋에서 제거해도 운영상 문제가 없다고 가정합시다.이러한 검토 단계를 passengers_clean
데이터셋에 대해서도 반복합니다. 이 데이터셋도 최상의 명명 및 스키마 관행을 준수하며, 이 열이 우리가 필요한 속성에 완벽하게 매핑된다고 가정합시다.
온톨로지 프로젝트 폴더와 관련 변환 아티팩트를 생성합시다. ../Data Engineering Tutorials/
폴더로 돌아가 Ontology Project: Flight Alerts라는 새 폴더를 생성합니다.
최선의 관행을 따라 적어도 다음 하위 폴더를 생성합니다:
/data
/transformed
/ontology
/analysis
/documentation
.../Ontology Project: Flight Alerts/data/ontology
폴더에서 Pipeline Builder를 사용하여 ontology_flight_alerts_logic
이라는 새로운 배치 파이프라인을 생성합니다.