이 내용은 learn.palantir.com ↗에서도 제공되며 접근성을 위해 여기에도 제공됩니다.
데이터 엔지니어링 학습 경로에서 Transform 프로젝트를 생성한 곳에서 이어갑니다. 온톨로지 오브젝트와 링크 유형을 지원할 데이터셋이 Code Repositories에서 Ontology 프로젝트로 결과물로 내보내져야 합니다.
이 작업에서는 온톨로지 프로젝트 폴더와 저장소를 설정하고 준비된 데이터셋을 출력하는 코드를 생성하게 됩니다. 우선 Data Lineage 그래프를 열어서 flight_alerts_clean
과 passengers_clean
데이터셋이 추가 준비가 필요한지 확인해 보겠습니다.
열려 있는 Data Lineage 그래프에서 flight_alerts_clean
데이터셋 노드를 클릭하고 화면 왼쪽 하단에 있는 미리보기 도움말 탭을 엽니다.
flight_date
열을 제외하고는 모두 스트링임을 확인합니다.alert_display_name
옆에 있는 "▾"을 클릭하여 미리보기 도움말에서 통계 보기를 선택하여 기본 키의 고유성을 확인합니다. 값의 히스토그램에서 어떤 값도 1회 이상 나타나지 않는지 확인합니다.
데이터셋의 열을 검토하고, "우리의 비행 경보 오브젝트 유형이 정말로 모든 알려진 워크플로를 지원하기 위해 이 모든 열을 오브젝트 속성으로 매핑할 필요가 있을까?"라고 물어봅니다.
rule_id
열이 필요하지 않고 이 데이터셋에서 제거해도 운영상 문제가 없다고 가정하겠습니다.passengers_clean
데이터셋에 대해서도 이러한 검토 단계를 반복합니다. 이 데이터셋도 최상의 명명 및 스키마 관행을 준수하고, 이 데이터셋의 열이 우리가 필요로 하는 속성에 완벽하게 매핑된다고 가정하겠습니다.
Ontology 프로젝트 폴더와 관련 변환 아티팩트를 생성하겠습니다. ../Data Engineering Tutorials/
폴더로 돌아가서 Ontology Project: Flight Alerts라는 새 폴더를 생성합니다.
최선의 관행을 준수하여 적어도 다음 하위 폴더를 생성합니다:
/data
/transformed
/ontology
/analysis
/documentation
/Ontology Project: Flight Alerts
폴더에 ontology_flight_alerts_logic라는 새 Python Code Repositories를 생성합니다.