8. [Pipeline Builder] 온톨로지 데이터 파이프라인10 - 온톨로지 프로젝트 구축

본 번역은 검증되지 않았습니다. AIP를 통해 영문원문으로부터 번역되었습니다.

10 - 온톨로지 프로젝트 구축

이 내용은 learn.palantir.com ↗에서도 확인할 수 있으며 접근성을 위해 여기에 제공됩니다.

📖 작업 소개

데이터 엔지니어링 학습 경로에서 변환 프로젝트를 만든 후에 멈췄습니다. 온톨로지 오브젝트와 링크 유형을 지원할 데이터셋은 Code Repositories에서 온톨로지 프로젝트로 출력되어야 합니다.

이 작업에서는 온톨로지 프로젝트 폴더와 저장소를 설정하고 준비된 데이터셋을 출력하는 코드를 생성합니다. 먼저 Data Lineage 그래프를 열고 flight_alerts_cleanpassengers_clean 데이터셋을 확인하여 추가 준비가 필요한지 확인합시다.

🔨 작업 지침

  1. 열린 Data Lineage 그래프에서 flight_alerts_clean 데이터셋 노드를 클릭하고 화면 왼쪽 하단의 미리보기 도우미 탭을 엽니다.

    • 열 이름이 모두 snake_case로 작성되어 있고 데이터가 일관되게 포맷되어 있으며 flight_date 열을 제외한 모든 열이 문자열인 것을 알 수 있습니다.
  2. 미리보기 도우미에서 alert_display_name 옆에 있는 "▾"을 클릭하고 통계 보기를 선택하여 기본 키 고유성을 확인합니다. 값의 히스토그램에서 값이 1회 이상 나타나지 않는지 확인합니다.

    • 이 데이터셋에 대한 기본 키 데이터 기대값 확인도 있으며, 이를 통해 기본 키가 고유하지 않은 경우 빌드가 실패합니다.
  3. 데이터셋의 열을 검토하고 "우리의 항공 경보 오브젝트 유형이 모든 알려진 워크플로를 지원하기 위해 이 모든 열을 오브젝트 속성으로 매핑할 필요가 있을까요?"라고 물어봅니다.

    • 지금은 category 열이 필요하지 않으며 이 데이터셋에서 제거해도 운영상 문제가 없다고 가정합시다.
  4. 이러한 검토 단계를 passengers_clean 데이터셋에 대해서도 반복합니다. 이 데이터셋도 최상의 명명 및 스키마 관행을 준수하며, 이 열이 우리가 필요한 속성에 완벽하게 매핑된다고 가정합시다.

  5. 온톨로지 프로젝트 폴더와 관련 변환 아티팩트를 생성합시다. ../Data Engineering Tutorials/ 폴더로 돌아가 Ontology Project: Flight Alerts라는 새 폴더를 생성합니다.

  6. 최선의 관행을 따라 적어도 다음 하위 폴더를 생성합니다:

    • /data
      • /transformed
      • /ontology
    • /analysis
    • /documentation
  7. .../Ontology Project: Flight Alerts/data/ontology 폴더에서 Pipeline Builder를 사용하여 ontology_flight_alerts_logic이라는 새로운 배치 파이프라인을 생성합니다.