1. 데이터 파이프라인 기초2 - 데이터 파이프라인 소개

본 번역은 검증되지 않았습니다. AIP를 통해 영문원문으로부터 번역되었습니다.

2 - 데이터 파이프라인 소개

이 내용은 learn.palantir.com ↗에서도 사용할 수 있으며, 접근성을 위해 여기에 제공됩니다.

데이터 파이프라인은 원천 시스템에서 데이터를 가져와 중간 데이터셋을 거쳐 최종적으로 온톨로지에 구조화되거나 기계 학습 및 분석 워크플로의 기반이 될 수 있는 고품질의 정제된 데이터셋을 생성하는 데이터 흐름입니다.

이 연습에서는 파이프라인 개발 프로세스의 기본 단계를 검토합니다. 데이터 파이프라인 수명주기는 일반적으로 다음과 같은 확실한 활동을 포함합니다:

  1. 원하는 결과물에 동의하기
  2. 결과물을 지원하는 원천 데이터 결정하기
  3. 파이프라인 범위 및 서비스 수준 계약(SLA) 정의하기
  4. 파이프라인 단계를 매핑하고 관련 프로젝트 구조 생성하기
  5. 변환을 테스트, 빌드 및 최적화하기
  6. 일정 및 데이터셋 건강 검사 적용하기
  7. 파이프라인 일정 생성하기
  8. 파이프라인 유지 관리하기