다음 정보는 데이터셋 프로젝션을 활성화, 구성, 빌드하는 과정을 안내해드립니다.
Noho는 데이터셋 프로젝션을 관리하는 서비스입니다.
프로젝션이 데이터셋의 스키마에서 noho: true
로 구성함으로써 활성화됩니다.
변환으로부터 데이터셋을 쓸 때나 Details 탭에서 스키마를 수동으로 수정함으로써 데이터셋의 스키마를 구성할 수 있습니다.
Copied!1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
# 필요한 모듈을 import합니다. from transforms.api import transform, Input, Output # transform 데코레이터를 사용하여 함수를 정의합니다. @transform( # 출력 데이터셋을 지정합니다. output_dataset=Output('/examples/example_output'), # 입력 데이터셋을 지정합니다. input_dataset=Input('/examples/example_input'), ) def compute(output_dataset, input_dataset): # 입력 데이터셋을 데이터프레임으로 변환합니다. input_dataset = input_dataset.dataframe() # 출력 데이터셋에 데이터프레임을 씁니다. 이때, 옵션으로 noho를 true로 설정합니다. output_dataset.write_dataframe(input_dataset, options={"noho": "true"})
스키마에 noho: true
가 설정되어 있고 데이터셋을 편집할 수 있는 권한이 있는 경우 데이터셋을 보면 프로젝션 탭이 표시됩니다.
새 프로젝션 추가
를 선택합니다.
프로젝션에 포함할 열을 선택합니다.
대부분의 경우, 모든 열
이 적합합니다. 하지만 쿼리가 열의 일부만 선택할 것이라는 것을 알고 있다면 이를 조정할 수 있습니다.
프로젝션의 유형을 선택합니다.
프로젝션 생성
버튼을 선택합니다.
프로젝션이 이제 존재하지만 데이터는 포함하고 있지 않습니다. 이는 프로젝션 옆에 붉은 경고 아이콘으로 표시됩니다. 프로젝션을 쿼리에서 사용하려면, 다음 단계를 따라 먼저 빌드해야 합니다.
리소스 사용에 대한 더 많은 제어를 제공하기 위해, 프로젝션을 유지하는 내부 빌드는 자동으로 예약되지 않습니다; 명시적으로 설정해야 합니다.
먼저, 현재 브랜치에서 프로젝션 빌드 활성화
스위치를 토글합니다. 이는 현재 브랜치에서 빌드를 실행할 수 있도록 합니다.
그런 다음, 빌드에 대한 일정을 설정합니다. 다른 브랜치에서 빌드를 예약하려는 경우, 해당 브랜치로 이동하고 프로세스를 반복해야 합니다.
빌드를 기다리고 싶지 않다면, 빌드 버튼을 선택하여 프로젝션을 명시적으로 빌드합니다.
이제 빌드가 완료될 때까지 기다립니다. 프로젝션이 최신 상태가 될 때까지 여러 빌드가 실행될 수 있습니다. 프로젝션 빌드 상태
라인 옆의 녹색 체크는 프로젝션이 이제 완전히 최신 상태라는 것을 나타냅니다.
프로젝션은 이제 최신 상태이며, 데이터셋에서 읽기에 사용됩니다.