데이터 통합파이프라인 빌딩Pipelines on unstructured data개요

본 번역은 검증되지 않았습니다. AIP를 통해 영문원문으로부터 번역되었습니다.

개요

데이터셋에 대한 개요에서 논의한 바와 같이, Foundry의 비구조화된 데이터는 테이블 형식 데이터처럼 데이터셋에 파일 모음으로 저장됩니다.

구조화된 데이터와 비구조화된 데이터 간 파이프라인에서 동일하게 작동하는 몇 가지 기능은 다음과 같습니다:

  • 컴퓨팅 성능을 최적화하기 위해 파이프라인을 점진적으로 만들 수 있습니다.
  • 파이프라인에 대한 단위 테스트를 작성할 수 있습니다.
  • 결과물 데이터셋을 계산하는 데 빌드일정을 사용합니다.
  • Foundry의 파이프라인 보안 기능은 강력한 엔드 투 엔드 보안 보장을 가능하게 합니다.

테이블 형식 데이터의 파이프라인과의 차이점은 다음과 같습니다:

  • 문서의 가이드 및 예제 코드 대부분은 데이터프레임 처리에 사용되지 않는 입력 유형에 초점을 맞춥니다.
  • 비구조화된 데이터셋에서 파일을 읽고 쓰려면 하위 수준 파일 시스템 API를 사용해야 합니다.
  • 비구조화된 데이터셋에 스키마가 없으므로 테이블 형식 데이터셋의 행과 열을 검증하는 데 초점을 맞춘 일부 기능을 사용할 수 없습니다.
  • 비구조화된 파일을 병렬로 처리하기 위해 Spark를 사용할 수 있지만 API는 데이터프레임 처리보다 하위 수준이고 복잡합니다.

비구조화된 데이터에 대한 파이프라인을 시작하려면 Python 및 Java 변환에 대한 문서의 관련 부분을 참조하십시오:

비구조화된 데이터가 정리되고 정규화되면 Code Workbook을 사용하여 Python 및 R에서 비구조화된 데이터셋을 분석하고 기계 학습 모델을 훈련할 수 있습니다. Code Workbook에서 비구조화된 데이터 액세스에 대해 더 알아보기.