1. 데이터 파이프라인 기초6 - 파이프라인 단계

본 번역은 검증되지 않았습니다. AIP를 통해 영문원문으로부터 번역되었습니다.

6 - 파이프라인 단계

이 콘텐츠는 learn.palantir.com ↗에서도 확인할 수 있으며, 접근성을 위해 여기에 제공됩니다.

새로운 파이프라인을 준비하거나 기존 파이프라인을 재구성할 때, 개별 파이프라인 단계 주변에 경계를 구성하려면 프로젝트를 구성해야 합니다.

📚 추천 읽기 (~15분 소요)

여기에서 제안하는 프로젝트 구조를 파이프라인 구현의 시작점으로 고려하되, 결국에는 이와 다른 방향으로 선택할 수 있습니다.

아래에는 각 파이프라인 단계의 입력, 결과물 및 특성에 대한 간략한 요약이 나와 있습니다(위의 링크된 문서에는 추가 지침이 포함되어 있습니다).

데이터소스 프로젝트

  • 입력 = Data Connection로부터의 원시 데이터
  • 결과물 = 정제된 데이터
  • 데이터소스 파이프라인은 독립된 소스와 매핑됩니다
  • 이 단계에서 다른 데이터 소스와 결합하지 않습니다
  • 데이터소스 프로젝트는 데이터셋만 출력합니다

변환 프로젝트

  • 입력 = 데이터소스 프로젝트/파이프라인에서 출력된 데이터
  • 결과물 = 온톨로지 레이어에 투입될 정규화된 데이터 뷰
  • 변환 프로젝트는 여러 데이터 소스로부터 입력을 사용할 수 있습니다
  • 변환 프로젝트는 데이터셋만 출력합니다

온톨로지 프로젝트

  • 입력 = 변환 프로젝트/파이프라인에서 출력된 데이터
  • 결과물 = 온톨로지에서 정의된 단일 또는 관련 그룹 오브젝트의 정의에 맞는 정규화된 데이터셋
  • 이 프로젝트의 결과물 데이터 에셋은 온톨로지와 동기화됩니다

워크플로 프로젝트 (이 트랙에서 다루지 않음)

  • 입력 = 온톨로지 프로젝트에서 출력된 데이터
  • 결과물 = 특정 비즈니스 유즈케이스를 해결하기 위해 설계된 아티팩트 모음

DATAENG 학습 경로는 이미 상류 소스에서 데이터가 연결되어 있다고 가정하며, 유즈케이스 아티팩트 생성에 이르지 않습니다(다른 학습 경로에서 다룸). 따라서 데이터소스, 변환, 그리고 온톨로지 프로젝트와 함께 작업하게 됩니다.