본 번역은 검증되지 않았습니다. AIP를 통해 영문원문으로부터 번역되었습니다.

Marketplace 제품에 데이터셋 변환 추가하기 [Beta]

Foundry DevOps를 사용하여 데이터셋 변환을 Marketplace 제품에 포함시켜 다른 사용자가 설치하고 재사용할 수 있습니다. 첫 번째 제품 생성 방법 알아보기.

지원 기능

데이터셋 변환(생성 Code Repositories 포함)을 패키지화할 때 모든 필수 종속성이 제품의 일부로 저장되어 변환 작업이 독립적으로 어디에서나 성공적으로 실행될 수 있게 보장합니다. 저장소는 Maven, PyPI 및 Conda 종속성을 가져올 수 있습니다.

Python, Java, SQL 변환 작업이 지원됩니다. 최근 템플릿이 있는 저장소에서 변환 작업이 생성되어야 패키징 오류가 발생하지 않습니다. 디버깅하려면 Code Repositories 애플리케이션에서 저장소를 업그레이드하세요. 변환 작업을 성공적으로 패키지화할 수 있다면 설치 또는 런타임 오류가 발생하지 않습니다.

소스 입력 데이터셋에서 모든 데이터셋 열(예: Marketplace 제품에 포함된 데이터셋 변환 작업의 입력값으로 사용되는 airplane 데이터셋)이 설치 시 필요한 입력값으로 필요로 하게 됩니다. 이는 열이 데이터셋 변환 작업에서 참조되었는지 여부와 관계없습니다.

지원되는 기능은 다음과 같습니다:

  • 점진적 변환 작업
  • 워크플로 표시 해제
  • Spark 프로필
  • 텔레메트리
  • 라이브러리
  • 외부 변환 작업
  • 스키마 없는 데이터셋

제품에 데이터셋 변환 작업 추가하기

데이터셋 변환 작업을 제품에 추가하려면 먼저 제품을 생성합니다. 데이터셋 변환을 추가하도록 선택한 후, 변환 작업을 생성하는 저장소를 선택한 다음 포함할 변환 작업을 선택합니다.

데이터셋 변환 작업 추가

일부 경우 하나의 변환 작업이 여러 결과물 데이터셋을 생성할 수 있습니다. 이 경우 모든 생성된 데이터셋이 제품에 포함되어야 합니다.

저장소 패키징 선택

저장소 패키징 옵션

저장소를 패키징하는 세 가지 방법이 있습니다.

  • 모든 소스 코드 제외: 저장소가 소스 코드 없이 패키지화됩니다. 저장소의 유일한 목적은 변환 작업을 실행할 때 필요한 종속성을 유지하는 것입니다. 이 방법은 컴파일된 사용자 코드와 모든 전이 종속성을 포함합니다.
  • 최신 소스 코드 포함, 버전 기록 제외: 저장소에는 소스 코드와 필요한 아티팩트가 모두 포함되어 있지만, Git 기록(태그 포함)은 유지되지 않습니다. 이 방법은 저장소를 읽기 전용 문서로 배포하는 데 권장되는 방법입니다.
  • 소스 코드와 전체 버전 기록 포함: 저장소가 그대로 제품에 저장됩니다. 전체 Git 기록이 패키징 시점에 저장되고 설치 시점에 복원됩니다. 이 모드는 설치 후 Code Repositories 애플리케이션 내에서 검사를 실행하고 변환 작업을 다시 빌드할 수 있는 유일한 모드입니다.