데이터 통합Code RepositoriesTransforms변환 미리보기

본 번역은 검증되지 않았습니다. AIP를 통해 영문원문으로부터 번역되었습니다.

변환 미리보기

Code Repositories의 미리보기 도구를 사용하여 입력 데이터셋의 제한된 샘플에서 코드를 실행하여 결과물을 빠르게 미리보세요. 미리보기는 변경 사항을 커밋하거나, 검사를 실행하거나, Foundry에서 데이터셋을 구체화하지 않고 샘플 결과물을 생성합니다. 미리보기는 빌드를 트리거하여 코드 변경 사항을 테스트할 필요가 없어 개발 주기를 가속화할 수 있습니다.

미리보기는 모든 Foundry 데이터셋에서 작동하며, 파일모델이 포함된 데이터셋을 포함합니다.

미리보기 실행

Code Repositories 내에서 미리보기는 두 곳에서 실행할 수 있습니다.

(1) 코드 에디터 옵션 패널에서 미리보기를 선택하여 실행:

코드 에디터 옵션에서 미리보기 실행

(2) 도움말 패널에서 미리보기를 선택하여 실행:

도움말 패널에서 미리보기 실행 - 단계 1

도움말 패널에서 미리보기 실행 - 단계 2

미리보기가 실행되면 결과물이 표시됩니다:

미리보기 결과물

파일과 함께 미리보기 구성

미리보기는 비구조화된 파일이 포함된 데이터셋에서 사용할 수 있습니다. 파일이 포함된 데이터셋에서 미리보기를 처음 실행할 때 샘플 내에서 사용될 파일을 구성해야 합니다.

파일 구성

파일 선택

샘플 파일이 선택되면 입력 목록에서 관련 입력을 선택하여 다시 구성할 수 있습니다. 구성을 저장한 후, 미리보기는 선택한 파일 샘플에서 코드를 실행합니다. 미리보기를 다시 실행할 때 입력 파일을 다시 구성할 필요가 없습니다. 미리보기가 실행되면 결과물 샘플을 행 또는 파일로 볼 수 있습니다. 필요한 권한이 있는 경우 결과물 파일을 다운로드할 수도 있습니다.

모델과 함께 미리보기 구성

모델 에셋

추가 구성이 필요하지 않은 미리보기는 Foundry에서 훈련된 모델 에셋사전 훈련된 파일을 기반으로 하는 또는 가져온 언어 모델을 지원합니다.

컨테이너 기반 모델외부 호스팅 모델은 현재 미리보기를 지원하지 않습니다.

모델 입력을 위한 모델 미리보기

데이터셋 기반 모델

데이터셋 기반 모델과 함께 미리보기를 구성하는 과정은 파일과 함께 미리보기 구성과 동일합니다. 미리보기가 성공적으로 실행되도록 모델링 특정 파일을 모두 선택하는지 확인하세요. Code Repositories에서 모델 개발에 대한 자세한 정보는 Train a Model Asset을 참조하세요.

파일 다시 선택

변환 생성기에서 생성된 변환 미리보기

변환 생성기에서 생성된 변환은 함수의 이름을 공유합니다. 미리보기를 위해 의도된 변환을 선택하기 쉽게 하려면 생성된 변환의 __name__ 속성을 변경하여 의미 있는 이름을 생성하세요. 예를 들면:

Copied!
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 from transforms.api import transform_df, Output # 함수를 생성하는 함수를 정의합니다. def generate_transforms(): transforms = [] # 변환을 저장할 빈 리스트를 생성합니다. # 각 output_dataset_name에 대해 변환을 생성합니다. for output_dataset_name in ["One", "Two", "Three"]: @transform_df( # 출력 경로를 설정합니다. Output(f"/output/path/{output_dataset_name}")) def my_transform(ctx, output_dataset_name=output_dataset_name): # 기본적으로, 생성된 변환은 `my_transform (1)`, `my_transform (2)` 등으로 명명됩니다. cols = ['id', 'value'] # 컬럼 이름을 설정합니다. # 데이터를 생성합니다. 각 튜플의 첫 번째 요소는 id, 두 번째 요소는 output_dataset_name입니다. vals = [ (0, f'{output_dataset_name}'), (1, f'{output_dataset_name}'), (2, f'{output_dataset_name}') ] # Spark 세션을 사용하여 DataFrame을 생성합니다. df = ctx.spark_session.createDataFrame(vals, cols) return df # DataFrame을 반환합니다. # 생성된 변환을 리스트에 추가합니다. transforms.append(my_transform) # 변환의 이름을 재정의합니다. transforms[-1].__name__ = f'{output_dataset_name}_{transforms[-1].__name__}' return transforms # 변환 리스트를 반환합니다. # 변환 리스트를 생성합니다. TRANSFORMS = generate_transforms()