본 번역은 검증되지 않았습니다. AIP를 통해 영문원문으로부터 번역되었습니다.

온톨로지 쿼리를 사용한 컴퓨트 사용량 계산

Foundry 온톨로지는 파일 기반 데이터를 비즈니스 중심의 오브젝트에 매핑하고 데이터 탐색, 데이터 분석, 운영 데이터 편집, 시나리오 분석 등을 위한 고속 쿼리를 제공하는 데이터 백엔드입니다. 온톨로지는 각각의 목적과 함께 유연하게 쿼리할 수 있는 다중 모달 저장 백엔드에서 데이터를 저장합니다. Foundry 온톨로지를 쿼리하려면 아래에서 설명하는 기초 개념에 대한 지식이 필요합니다.

Palantir와 엔터프라이즈 계약이 있는 경우, 컴퓨트 사용량 계산을 진행하기 전에 Palantir 담당자에게 문의하십시오.

핵심 개념: 오브젝트 유형과 오브젝트셋

첫 번째 중요한 개념은 오브젝트 유형과 해당하는 오브젝트셋의 차이입니다. 오브젝트 유형은 엔티티 자체의 의미론적 표현(예: 오브젝트의 이름과 속성)입니다.

오브젝트 유형에는 해당하는 오브젝트셋이 있으며, 이 안에 오브젝트들이 포함되어 있습니다. 오브젝트셋의 크기는 들어오는 데이터셋의 행 수와 온톨로지 액션에 의해 생성되고 삭제된 오브젝트 수에 해당합니다.

핵심 개념: 쿼리 유형

두 번째 중요한 개념은 필터, 집계, 주변 검색, 및 쓰기백 작업을 포함하는 쿼리 유형 개념입니다. 각 쿼리 유형은 실행에 컴퓨트를 필요로 합니다.

  • 필터는 전체 오브젝트셋을 고려하고 필터링 기준을 적용하여 더 작은 결과물 세트를 생성합니다.
  • 집계는 입력 오브젝트셋을 가져와서 세트 내 모든 오브젝트에 대한 속성 중 하나에 대해 집계 함수(예: sum 또는 avg)를 실행합니다.
  • 주변 검색은 들어오는 오브젝트셋을 가져와서 들어오는 세트의 특정 속성에 기반한 다른 오브젝트셋에서 보조 필터를 실행합니다.
  • 쓰기백 작업은 지정된 오브젝트셋의 오브젝트 속성 값들을 바꿉니다.

API 문서에서 쿼리 유형에 대해 자세히 알아보십시오.

Foundry 온톨로지를 사용할 때, 쿼리 유형은 다음 Foundry 애플리케이션에서 오브젝트셋에 대해 실행됩니다:

  • Object Explorer
  • Workshop
  • Quiver
  • Slate
  • Vertex
  • Foundry Rules
  • Foundry Machinery
  • Object APIs (OPIs)

온톨로지를 이러한 소스 중 어느 것에서 쿼리하든 쿼리를 실행하는 데 컴퓨트 초가 사용됩니다.

  • 쿼리 오버헤드에 대한 고정된 최소 컴퓨트 초 수.
  • 쿼리를 서비스하는 데 사용되는 컴퓨트량에 따라 측정되는 추가 스케일링 컴퓨트 초 수.

온톨로지 오브젝트 쿼리를 사용한 Foundry 컴퓨트 측정

오브젝트 스토리지 V1을 사용한 컴퓨트 측정

오브젝트 스토리지 V1(Phonograph)은 데이터를 내구성이 있고 가로로 확장 가능한 클러스터에 있는 분산된 인덱스 세트에 저장합니다. 이 인덱스에서 데이터는 온톨로지 쿼리 엔진에서 순회하는 대규모 데이터 구조에 위치하게 됩니다. 쿼리가 실행되면, 엔진은 인덱스 순회를 통해 검색 중 큰 양의 데이터 처리를 피할 수 있습니다. 이 과정을 "가지치기"라고 합니다.

이 엔진을 사용하여 최대 1000배 더 적은 레코드를 평가하면서 수십억 개의 레코드를 검색할 수 있습니다. 각 물리적 레코드 평가를 "히트"라고 합니다. 오브젝트 스토리지 V1은 각 쿼리에서 히트 수를 최소화하도록 설계되었습니다.

오브젝트 스토리지 V2를 사용한 컴퓨트 측정

오브젝트 스토리지 V2 (OSv2)는 고속 인덱싱, 주변 검색 및 쓰기백을 최적화하고 복잡한 작업을 수행하기 위해 여러 컴퓨트 백엔드에 원활한 인계를 위해 Palantir에서 최적화한 향상된 인덱싱 형식으로 오브젝트를 저장합니다. 이에는 쿼리의 일부로 완전히 병렬화된 스파크 컴퓨트가 포함됩니다.

오브젝트 스토리지 V2는 효율적인 인덱싱 구조를 사용하므로 기본 쿼리에서 오브젝트 스토리지 V1의 히트 원칙이 동일하게 적용됩니다. 그러나 쿼리의 일부로 시작되는 온디맨드 스파크 컨테이너에서도 컴퓨트 초를 사용할 수 있습니다.

오브젝트 스토리지 V2 백엔드에 있는 오브젝트에 대한 쿼리는 다음 패턴으로 컴퓨트를 사용합니다:

  • 오브젝트 스토리지 V1 백엔드에 있는 오브젝트에 대한 쿼리당 고정된 컴퓨트 초 오버헤드인 16 컴퓨트 초.
  • 오브젝트 스토리지 V2 백엔드에 있는 오브젝트에 대한 쿼리당 고정된 컴퓨트 초 오버헤드인 10 컴퓨트 초. 오브젝트 스토리지 V2의 최적화된 구조는 오브젝트 스토리지 V1보다 적은 오버헤드를 필요로 하므로 고정된 컴퓨트 초 오버헤드가 줄어듭니다.
  • 쿼리의 가지치기 과정을 통해 컴퓨팅 작업을 수행할 때 추가 컴퓨트 초가 필요합니다. 추가 컴퓨트 초는 인덱스의 오브젝트 수 및 쿼리 유형에 따라 스케일링됩니다.
  • 오브젝트 스토리지 V2 (OSv2)에서 인덱스 가지치기는 마찬가지로 추가 컴퓨트 초가 필요합니다. 그러나 OSv2는 100,000개 이상의 오브젝트에서 주변 검색을 실행하거나 단일 요청에서 10,000개 이상의 오브젝트에 대한 쓰기백 작업을 실행할 때 온디맨드 스파크 클러스터 검색을 지원합니다. 이러한 스파크 클러스터는 플랫폼의 다른 모든 스파크 기반 애플리케이션과 동일한 방식으로 사용량을 활용합니다. 설명에 대해서는 병렬화된 컴퓨트 문서를 참조하십시오.

온톨로지 쿼리를 사용한 Foundry 컴퓨트 사용량의 드라이버 이해하기

  • 매우 간단한 규칙으로, 쿼리당 고정 컴퓨트 사용량은 쿼리 수와 선형적으로 증가합니다. 적은 수의 쿼리를 수행하면 컴퓨트가 적게 사용됩니다.
  • 오브젝트 셋 서비스에 대한 더 복잡한 쿼리, 예를 들어 일반적인 다중 오브젝트 검색,은 각 오브젝트 유형에 대한 여러 하위 쿼리를 시작합니다. 쿼리 사용량을 줄이기 위해 개별 오브젝트 유형에 대한 검색을 제한하십시오.
  • 작은 오브젝트셋에서의 쿼리는 큰 오브젝트셋에서의 쿼리보다 더 적은 컴퓨트를 사용합니다. 왜냐하면 쿼리의 히트 수는 쿼리되는 오브젝트셋의 크기에 비례하기 때문입니다.
  • 다른 작업을 수행하기 전에 미리 필터링하면 인덱스가 높은 백엔드 구조의 이점을 활용할 수 있습니다. 이렇게 하면 쿼리의 히트 수가 줄어들어 전체 컴퓨트 사용량이 감소합니다. 이는 특히 집계 및 주변 검색에서 중요합니다. 여기서 필터링된 오브젝트셋은 전체 오브젝트셋보다 처리하는 데 더 적은 컴퓨트를 필요로 합니다.

온톨로지 쿼리로부터의 Foundry 컴퓨트 사용량 조사하기

Foundry에서 컴퓨트 초는 플랫폼의 리소스에 속성이 부여되며, 해당 리소스와 상호 작용하는 사용자에게는 부여되지 않습니다.

온톨로지 쿼리와 관련하여 컴퓨트가 부여되는 방식은 여러 가지가 있습니다. 일반적인 규칙으로, 컴퓨트는 쿼리가 시작된 리소스에 연결됩니다. 그러나 저장된 리소스가 컴퓨트를 생성하는 데 사용되지 않는 경우(API를 통한 경우와 같이), 컴퓨트는 쿼리되는 오브젝트 유형에 연결됩니다. 하나의 요청에서 여러 오브젝트가 쿼리되면 컴퓨트는 오브젝트 간에 동일하게 나누어집니다.

다음 리소스 유형은 기본 오브젝트에 컴퓨트를 속성 부여하는 대신 온톨로지 쿼리 컴퓨트가 속성 부여됩니다.

  • Workshop 애플리케이션
  • Quiver 분석 및 대시보드
  • Vertex 애플리케이션
  • Slate 애플리케이션
  • Foundry Machinery 애플리케이션
  • Foundry Rules 리소스

다음 상호 작용 패턴은 컴퓨트를 연결할 설정된 리소스가 없기 때문에 쿼리한 오브젝트 유형에 직접 온톨로지 쿼리 컴퓨트가 연결됩니다.

  • Object Explorer
  • Object APIs (OSDK 포함)