8. [Code Repositories] 온톨로지 데이터 파이프라인11 - 온톨로지 데이터 변환

본 번역은 검증되지 않았습니다. AIP를 통해 영문원문으로부터 번역되었습니다.

11 - 온톨로지 데이터 변환

이 내용은 learn.palantir.com ↗에서도 이용 가능하며 접근성을 위해 여기에 제공됩니다.

📖 작업 소개

새로운 저장소에서 온톨로지 오브젝트 유형과 링크 유형을 지원하기 위해 세 개의 입력 데이터셋을 변환할 것입니다.

  1. flight_alerts_clean: 이 데이터셋은 우리의 비행 알림 오브젝트 유형을 지원하지만, 먼저 rule_id 열을 제거하고자 합니다. 왜냐하면 이 열은 예상되는 워크플로에서 필요하지 않기 때문입니다(온톨로지 스토리지 서비스에 동기화해야 할 데이터의 양을 줄이면 계산 부하를 줄일 수 있습니다).
  2. passengers_clean: 이 데이터셋은 현재로서는 업데이트가 필요 없다고 판단되므로, 그대로 신원 변환으로 처리하겠습니다.
  3. passenger_flight_alerts_clean: 승객과 비행 알림 사이에는 다대다 관계가 있습니다. 관계형 데이터베이스에서의 다대다 조인과 마찬가지로, 온톨로지에서 다대다 링크 유형을 지원하기 위해 조인 테이블이 필요합니다. 따라서 이미 파이프라인의 일부인 이 데이터셋을 준비해야 합니다(추가적인 준비가 필요 없다고 가정합니다).

🔨 작업 지시사항

  1. Code Repositories 파일에서 /datasets/examples.py를 삭제하세요. 파일 이름 옆의 ...를 클릭하고 옵션 메뉴에서 삭제를 선택합니다.
  2. 이 교육 트랙에서 배운 프로세스를 사용하여 /dataflight_alerts.py라는 새 파일을 만드세요.
  3. 입력당신의 flight_alerts_clean으로 설정하세요(당신의 Foundry 환경에는 많은 flight_alerts_clean 데이터셋이 있을 수 있으므로, 파이프라인에서 생성한 것을 선택했는지 다시 확인하세요). 결과물 위치를 .../Ontology Project: Flight Alerts/data/ontology/...로 확인하고, 필요한 경우 이러한 하위 폴더를 생성하세요(아래 이미지 참조)

  1. 예를 들어, 반환된 데이터프레임에 .drop('rule_id')를 호출하여 rule_id 열을 제거하세요.
  2. 변경사항을 미리 보고 의미 있는 메시지로 코드를 커밋하세요.
  3. /datasetspassengers.pypassenger_flight_alerts.py에 대한 새로운 변환 파일을 생성하세요.
  4. 각각에 대해 위의 3단계에서의 지시사항에 따라 결과물 경로를 조정하세요.
  5. passengers.py의 입력을 당신의 passengers_clean으로 설정하고, passenger_flight_alerts.py당신의 passenger_flight_alerts_clean 데이터셋을 입력으로 사용하도록 설정하세요.
  6. 이 두 데이터셋 모두 데이터 변환이 필요 없음을 기억하세요. 그래서 입력을 그대로 반환할 수 있습니다.
  7. 변경사항을 미리 보고 코드를 커밋하세요.
  8. 각 변환 파일을 빌드하세요. 각 파일에 대해 빌드 버튼을 클릭하세요(즉, 열어본 각 변환 파일에 대해 한 번씩 빌드 버튼을 클릭해야 합니다).