2. 온톨로지 개발2 - 데이터셋 준비하기

본 번역은 검증되지 않았습니다. AIP를 통해 영문원문으로부터 번역되었습니다.

2 - 데이터셋 준비하기

이 내용은 learn.palantir.com ↗에서도 확인하실 수 있으며, 접근성을 위해 여기에 제공됩니다.

온톨로지는 세상을 분류하는 것이며, 이 트랙의 가상 세계의 요소 중 하나는 '비행 경보'입니다. 이러한 경보가 트리거되어 플랫폼 내의 다른 로직을 사용하여 '데이터'로 전환되는 것을 가정으로 합니다.

이와 같은 온톨로지 개발 프로젝트를 시작하기 전에 알아두어야 할 사항은 다음과 같습니다:

  • 오브젝트 유형과 링크, 그리고 필요한 데이터 구조를 사용하여 달성하려는 워크플로.
  • 오브젝트 유형은 단일 데이터셋에 의해 지원되며, 데이터셋은 오직 하나의 오브젝트 유형만 지원할 수 있습니다.
  • 데이터 변환에서 청소 및 포맷팅 작업이 이루어져야 하며, 이는 온톨로지에서 이루어지지 않습니다.

오브젝트 유형을 생성하는 첫 번째 단계는 적절한 데이터셋을 찾거나 개발하는 것입니다. 이 수업에서는 기존 데이터셋의 복사본을 만들어 다른 Foundry 사용자의 결과물에 영향을 주지 않고 편하게 작업하게 됩니다. 실제 프로젝트에서는 원하는 데이터셋이 없는 경우, 데이터 엔지니어와 Foundry에 연결된 다양한 소스 시스템의 관리자와 협업하여 더 복잡한 파이프라인을 개발하게 됩니다.

🔨 오브젝트 유형에 대한 새로운 데이터소스 생성하기

  1. 이미 튜토리얼을 위해 개인 샌드박스 폴더를 생성했다면, 그 폴더로 이동하세요. 아직 생성하지 않았다면, Palantir Foundry 입문 튜토리얼의 샌드박스 폴더 생성 페이지의 단계를 따라 생성하세요.
  2. 개인 샌드박스 폴더에서 Training Pipeline Simulator (yourName date) 폴더를 열고 New 버튼을 선택하여 드롭다운 메뉴에서 Pipeline 옵션을 선택하여 새 파이프라인을 생성하세요.
  3. 파이프라인 위치, 배치 대 스트리밍 선호도, 그리고 다른 파이프라인 생성 옵션에 대해 묻는 경우, 기본값을 사용하세요 (변경하지 말 것)
  4. 환영 화면에서 Add Foundry datasets 옵션을 볼 수 있습니다. 이 옵션을 선택한 다음 /Foundry Training and Resources/Example Data/Aviation Ontology/flight_alerts/ 데이터셋을 찾으세요. 데이터셋 옆에 있는 **+**를 선택한 다음, 창의 오른쪽 하단 근처에 있는 버튼을 사용하여 데이터셋을 추가하세요. 이렇게 하면 창이 닫히고 Pipeline Builder UI의 중앙 영역에 flight_alerts 데이터셋이 표시됩니다.
  5. 오른쪽 사이드바에서 **"Add pipeline output"**을 선택한 다음, "Dataset" 옵션 옆의 "Add" 버튼을 선택하세요. 오른쪽 사이드바는 이제 flight_alerts 데이터셋에 기반한 열 이름이 자동으로 채워져야 합니다.
  6. 오른쪽 사이드바 상단의 필드를 사용하여 출력 데이터셋의 이름을 **flight_alerts_{yourname}_{date}**로 변경하세요 (열과 모든 다른 버튼 위에, 원래 이름이 **New dataset {date}**로 표시되는 곳)
  7. 소스 데이터셋의 데이터를 새로 생성된 출력 데이터셋에 복사하려면, Pipeline Builder UI 상단의 녹색 화살표(화면 해상도에 따라 하단에 **"save"**로 표시될 수도 있고 아닐 수도 있음) 버튼을 클릭하여 저장한 다음, 그 옆에 있는 파란색 망치 "deploy" 버튼을 클릭하세요. 이 버튼이 팝업을 열면, 녹색 "deploy pipeline" 버튼을 클릭하여 배포를 확인하세요.
  8. 새 데이터셋이 준비되기까지 몇 분 정도 걸릴 수 있습니다 - 배포 버튼 오른쪽의 새로 고침 휠 아이콘을 클릭하여 데이터셋의 진행 상황을 모니터링할 수 있습니다; 그것을 클릭하여 세부 사항을 볼 수 있고, 또는 녹색 체크 표시가 나타날 때까지 기다릴 수 있습니다. 이는 배포가 성공적으로 완료되었음을 의미합니다.

이제 온톨로지 오브젝트 유형을 지원할 준비가 된 고유한 데이터셋을 가지게 되었습니다.