8. [Code Repositories] 온톨로지 데이터 파이프라인9 - 백킹 데이터셋 확인하기

본 번역은 검증되지 않았습니다. AIP를 통해 영문원문으로부터 번역되었습니다.

9 - 백킹 데이터셋 확인하기

이 콘텐츠는 learn.palantir.com ↗에서도 확인할 수 있으며 접근성을 위해 여기에 제공됩니다.

📖 작업 소개

비행 알림과 승객 두 가지 오브젝트 유형을 생성하고 연결하려고 합니다. 최종 목표는 분석가가 액션을 취할 수 있도록 하는 알림 인박스 애플리케이션을 만드는 것으로, 영향을 받은 승객에게 연락하는 것을 포함할 수 있습니다. 이 목적을 염두에 두고 데이터 파이프라인을 검토하고, 모범 사례와 비교하여 비행 알림과 승객 데이터셋을 온톨로지 오브젝트 유형에 대한 백킹으로 더 준비할 수 있는지 확인해 봅시다.

🔨 작업 지침

  1. 개인 /Temporary Training Artifacts/${yourName} 폴더로 이동합니다.
  2. /Data Engineering Tutorials 폴더를 마우스 오른쪽 버튼으로 클릭하고 팝업 메뉴에서 Data Lineage 탐색을 선택합니다.
  3. 아래 이미지에서 보여지는 것처럼 화면 하단에 Data Health 도움말 탭과 오른쪽에 Schedules 패널을 열어두는 것을 고려해 보세요.

이 파이프라인에서 원하는 결과를 고려할 때 온톨로지 오브젝트를 생성하기 위한 세 가지 후보 데이터셋이 있습니다.

  • passengers_clean
  • flight_alerts_clean
  • flight_alerts_joined_passengers

온톨로지 설계에 대한 이전 논의에서 속성 또는 오브젝트 유형으로 데이터를 모델링하기 위한 기준을 살펴보았습니다. 비행 알림에 승객 데이터를 집계하려면 (flight_alerts_joined_passengers를 사용하는 경우처럼), 알림과 승객 데이터를 연결할 수 있는 구성된 온톨로지 링크 유형을 통해 알림에서 승객 데이터에 접근해야 합니다.

데이터가 단일 정보인 경우 경고와 승객 정보를 결합할 수 있습니다. 이 경우 비행 알림과 승객 간에 일대다 관계가 있기 때문에, 알림당 승객 데이터는 집계되어야 합니다. 승객 데이터는 비행 알림에 대한 주요 지원 정보가 아닙니다. 개념적으로 승객과 비행 알림은 매우 다른 개체로, 검색 의미와 유즈케이스가 매우 다릅니다.

이러한 이유로 백킹 데이터셋 간에 공유된 키를 통해 가능한 링크로 연결된 별도의 오브젝트 유형으로 모델링합시다.