8. [Code Repositories] 온톨로지 데이터 파이프라인10 - 온톨로지 프로젝트 빌드

본 번역은 검증되지 않았습니다. AIP를 통해 영문원문으로부터 번역되었습니다.

10 - 온톨로지 프로젝트 빌드

이 내용은 learn.palantir.com ↗에서도 제공되며 접근성을 위해 여기에도 제공됩니다.

📖 작업 소개

데이터 엔지니어링 학습 경로에서 Transform 프로젝트를 생성한 곳에서 이어갑니다. 온톨로지 오브젝트와 링크 유형을 지원할 데이터셋이 Code Repositories에서 Ontology 프로젝트로 결과물로 내보내져야 합니다. 이 작업에서는 온톨로지 프로젝트 폴더와 저장소를 설정하고 준비된 데이터셋을 출력하는 코드를 생성하게 됩니다. 우선 Data Lineage 그래프를 열어서 flight_alerts_cleanpassengers_clean 데이터셋이 추가 준비가 필요한지 확인해 보겠습니다.

🔨 작업 지시사항

  1. 열려 있는 Data Lineage 그래프에서 flight_alerts_clean 데이터셋 노드를 클릭하고 화면 왼쪽 하단에 있는 미리보기 도움말 탭을 엽니다.

    • 열 이름이 모두 snake_case로 작성되어 있고, 데이터가 일관되게 포맷되어 있으며, 모든 열이 flight_date 열을 제외하고는 모두 스트링임을 확인합니다.
  2. alert_display_name 옆에 있는 "▾"을 클릭하여 미리보기 도움말에서 통계 보기를 선택하여 기본 키의 고유성을 확인합니다. 값의 히스토그램에서 어떤 값도 1회 이상 나타나지 않는지 확인합니다.

    • 이 데이터셋에서 기본 키가 고유하지 않은 경우 빌드가 실패하도록 기본 키 데이터 예상 체크도 있음을 기억하세요.
  3. 데이터셋의 열을 검토하고, "우리의 비행 경보 오브젝트 유형이 정말로 모든 알려진 워크플로를 지원하기 위해 이 모든 열을 오브젝트 속성으로 매핑할 필요가 있을까?"라고 물어봅니다.

    • 지금은 rule_id 열이 필요하지 않고 이 데이터셋에서 제거해도 운영상 문제가 없다고 가정하겠습니다.
  4. passengers_clean 데이터셋에 대해서도 이러한 검토 단계를 반복합니다. 이 데이터셋도 최상의 명명 및 스키마 관행을 준수하고, 이 데이터셋의 열이 우리가 필요로 하는 속성에 완벽하게 매핑된다고 가정하겠습니다.

  5. Ontology 프로젝트 폴더와 관련 변환 아티팩트를 생성하겠습니다. ../Data Engineering Tutorials/ 폴더로 돌아가서 Ontology Project: Flight Alerts라는 새 폴더를 생성합니다.

  6. 최선의 관행을 준수하여 적어도 다음 하위 폴더를 생성합니다:

    • /data
      • /transformed
      • /ontology
    • /analysis
    • /documentation
  7. /Ontology Project: Flight Alerts 폴더에 ontology_flight_alerts_logic라는 새 Python Code Repositories를 생성합니다.