데이터 통합파이프라인 최적화 및 디버깅Dataset projections프로젝션 설정하기

본 번역은 검증되지 않았습니다. AIP를 통해 영문원문으로부터 번역되었습니다.

프로젝션 설정하기

다음 정보는 데이터셋 프로젝션을 활성화, 구성, 빌드하는 과정을 안내해드립니다.

Noho는 데이터셋 프로젝션을 관리하는 서비스입니다.

데이터셋에 대한 프로젝션 활성화하기

프로젝션이 데이터셋의 스키마에서 noho: true로 구성함으로써 활성화됩니다.

변환으로부터 데이터셋을 쓸 때나 Details 탭에서 스키마를 수동으로 수정함으로써 데이터셋의 스키마를 구성할 수 있습니다.

Copied!
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 # 필요한 모듈을 import합니다. from transforms.api import transform, Input, Output # transform 데코레이터를 사용하여 함수를 정의합니다. @transform( # 출력 데이터셋을 지정합니다. output_dataset=Output('/examples/example_output'), # 입력 데이터셋을 지정합니다. input_dataset=Input('/examples/example_input'), ) def compute(output_dataset, input_dataset): # 입력 데이터셋을 데이터프레임으로 변환합니다. input_dataset = input_dataset.dataframe() # 출력 데이터셋에 데이터프레임을 씁니다. 이때, 옵션으로 noho를 true로 설정합니다. output_dataset.write_dataframe(input_dataset, options={"noho": "true"})
데이터셋 스키마에서 프로젝션 활성화.

프로젝션 탭으로 이동하기

스키마에 noho: true가 설정되어 있고 데이터셋을 편집할 수 있는 권한이 있는 경우 데이터셋을 보면 프로젝션 탭이 표시됩니다.

데이터셋 미리보기의 프로젝션 탭으로 이동하기.

생성 대화상자 열기

새 프로젝션 추가를 선택합니다.

프로젝션 탭에서 새 프로젝션 추가하기.

프로젝션 열 선택하기

프로젝션에 포함할 열을 선택합니다.

모든 열을 추가하거나 특정 열만 추가하거나 제외할 열을 선택하기.

대부분의 경우, 모든 열이 적합합니다. 하지만 쿼리가 열의 일부만 선택할 것이라는 것을 알고 있다면 이를 조정할 수 있습니다.

프로젝션 유형 선택하기

프로젝션의 유형을 선택합니다.

프로젝션에서 필터링 또는 조인 최적화를 선택하기,

  • 필터 최적화 프로젝션의 경우, 필터링할 열을 선택합니다.
    • 순서는 중요하며, 프로젝션은 이 목록의 접두사에 대한 쿼리만 가속화합니다.
  • 조인 최적화 프로젝션의 경우, 조인 열과 버킷 수를 선택합니다.
    • 조인은 이 정확한 열 집합에 대해서만 가속화됩니다.
    • 명시적으로 버킷화된 데이터셋이나 다른 조인 최적화 데이터셋에 조인할 때, 버킷 수는 동일해야 합니다.

프로젝션 생성하기

프로젝션 생성 버튼을 선택합니다.

프로젝션은 모든 열을 선택하도록 설정되었고, 데이터셋의 column1을 필터링하도록 최적화되었습니다.

프로젝션이 이제 존재하지만 데이터는 포함하고 있지 않습니다. 이는 프로젝션 옆에 붉은 경고 아이콘으로 표시됩니다. 프로젝션을 쿼리에서 사용하려면, 다음 단계를 따라 먼저 빌드해야 합니다.

빌드 설정하기

리소스 사용에 대한 더 많은 제어를 제공하기 위해, 프로젝션을 유지하는 내부 빌드는 자동으로 예약되지 않습니다; 명시적으로 설정해야 합니다.

먼저, 현재 브랜치에서 프로젝션 빌드 활성화 스위치를 토글합니다. 이는 현재 브랜치에서 빌드를 실행할 수 있도록 합니다.

그런 다음, 빌드에 대한 일정을 설정합니다. 다른 브랜치에서 빌드를 예약하려는 경우, 해당 브랜치로 이동하고 프로세스를 반복해야 합니다.

현재 브랜치에서 프로젝션 빌드를 활성화하려면 스위치를 토글하기,

빌드 섹션에서 빌드 일정을 추가할지 여부를 선택하기.

빌드는 매일 오전 12시 31분 EST에 예약되어 있습니다.

(선택사항) 프로젝션 빌드하기

빌드를 기다리고 싶지 않다면, 빌드 버튼을 선택하여 프로젝션을 명시적으로 빌드합니다.

빌드 섹션 위의 망치 아이콘을 선택하여 프로젝션 빌드를 수동으로 트리거하기.

이제 빌드가 완료될 때까지 기다립니다. 프로젝션이 최신 상태가 될 때까지 여러 빌드가 실행될 수 있습니다. 프로젝션 빌드 상태 라인 옆의 녹색 체크는 프로젝션이 이제 완전히 최신 상태라는 것을 나타냅니다.

프로젝션이 성공적으로 빌드되었음을 원 안의 녹색 체크표시가 나타냅니다.

프로젝션은 이제 최신 상태이며, 데이터셋에서 읽기에 사용됩니다.