Foundry 온톨로지는 파일 기반 데이터를 비즈니스 중심의 오브젝트에 매핑하고 데이터 탐색, 데이터 분석, 운영 데이터 편집, 시나리오 분석 등을 위한 고속 쿼리를 제공하는 데이터 백엔드입니다. 온톨로지는 각각의 목적과 함께 유연하게 쿼리할 수 있는 다중 모달 저장 백엔드에서 데이터를 저장합니다. Foundry 온톨로지를 쿼리하려면 아래에서 설명하는 기초 개념에 대한 지식이 필요합니다.
Palantir와 엔터프라이즈 계약이 있는 경우, 컴퓨트 사용량 계산을 진행하기 전에 Palantir 담당자에게 문의하십시오.
첫 번째 중요한 개념은 오브젝트 유형과 해당하는 오브젝트셋의 차이입니다. 오브젝트 유형은 엔티티 자체의 의미론적 표현(예: 오브젝트의 이름과 속성)입니다.
오브젝트 유형에는 해당하는 오브젝트셋이 있으며, 이 안에 오브젝트들이 포함되어 있습니다. 오브젝트셋의 크기는 들어오는 데이터셋의 행 수와 온톨로지 액션에 의해 생성되고 삭제된 오브젝트 수에 해당합니다.
두 번째 중요한 개념은 필터, 집계, 주변 검색, 및 쓰기백 작업을 포함하는 쿼리 유형 개념입니다. 각 쿼리 유형은 실행에 컴퓨트를 필요로 합니다.
sum
또는 avg
)를 실행합니다.API 문서에서 쿼리 유형에 대해 자세히 알아보십시오.
Foundry 온톨로지를 사용할 때, 쿼리 유형은 다음 Foundry 애플리케이션에서 오브젝트셋에 대해 실행됩니다:
온톨로지를 이러한 소스 중 어느 것에서 쿼리하든 쿼리를 실행하는 데 컴퓨트 초가 사용됩니다.
오브젝트 스토리지 V1(Phonograph)은 데이터를 내구성이 있고 가로로 확장 가능한 클러스터에 있는 분산된 인덱스 세트에 저장합니다. 이 인덱스에서 데이터는 온톨로지 쿼리 엔진에서 순회하는 대규모 데이터 구조에 위치하게 됩니다. 쿼리가 실행되면, 엔진은 인덱스 순회를 통해 검색 중 큰 양의 데이터 처리를 피할 수 있습니다. 이 과정을 "가지치기"라고 합니다.
이 엔진을 사용하여 최대 1000배 더 적은 레코드를 평가하면서 수십억 개의 레코드를 검색할 수 있습니다. 각 물리적 레코드 평가를 "히트"라고 합니다. 오브젝트 스토리지 V1은 각 쿼리에서 히트 수를 최소화하도록 설계되었습니다.
오브젝트 스토리지 V2 (OSv2)는 고속 인덱싱, 주변 검색 및 쓰기백을 최적화하고 복잡한 작업을 수행하기 위해 여러 컴퓨트 백엔드에 원활한 인계를 위해 Palantir에서 최적화한 향상된 인덱싱 형식으로 오브젝트를 저장합니다. 이에는 쿼리의 일부로 완전히 병렬화된 스파크 컴퓨트가 포함됩니다.
오브젝트 스토리지 V2는 효율적인 인덱싱 구조를 사용하므로 기본 쿼리에서 오브젝트 스토리지 V1의 히트 원칙이 동일하게 적용됩니다. 그러나 쿼리의 일부로 시작되는 온디맨드 스파크 컨테이너에서도 컴퓨트 초를 사용할 수 있습니다.
오브젝트 스토리지 V2 백엔드에 있는 오브젝트에 대한 쿼리는 다음 패턴으로 컴퓨트를 사용합니다:
16
컴퓨트 초.10
컴퓨트 초. 오브젝트 스토리지 V2의 최적화된 구조는 오브젝트 스토리지 V1보다 적은 오버헤드를 필요로 하므로 고정된 컴퓨트 초 오버헤드가 줄어듭니다.Foundry에서 컴퓨트 초는 플랫폼의 리소스에 속성이 부여되며, 해당 리소스와 상호 작용하는 사용자에게는 부여되지 않습니다.
온톨로지 쿼리와 관련하여 컴퓨트가 부여되는 방식은 여러 가지가 있습니다. 일반적인 규칙으로, 컴퓨트는 쿼리가 시작된 리소스에 연결됩니다. 그러나 저장된 리소스가 컴퓨트를 생성하는 데 사용되지 않는 경우(API를 통한 경우와 같이), 컴퓨트는 쿼리되는 오브젝트 유형에 연결됩니다. 하나의 요청에서 여러 오브젝트가 쿼리되면 컴퓨트는 오브젝트 간에 동일하게 나누어집니다.
다음 리소스 유형은 기본 오브젝트에 컴퓨트를 속성 부여하는 대신 온톨로지 쿼리 컴퓨트가 속성 부여됩니다.
다음 상호 작용 패턴은 컴퓨트를 연결할 설정된 리소스가 없기 때문에 쿼리한 오브젝트 유형에 직접 온톨로지 쿼리 컴퓨트가 연결됩니다.