데이터 통합파이프라인 유지개요

개요

다양한 유즈케이스 지원을 위해 데이터 파이프라인이 생성되고 상용화되면 일부는 더 이상 활발한 개발이 이루어지지 않고 파이프라인 유지 관리가 중심이 되는 상태에 도달할 수 있습니다.

이 페이지는 파이프라인 관리자의 책임과 파이프라인을 유지 관리 모드로 전환하기 위한 전제 조건에 중점을 두고 있습니다:

이 섹션의 나머지 부분에서는 파이프라인 유지 관리를 위한 모범 사례와 접근 방식에 대해 설명합니다:

전제 조건 및 기대치

파이프라인을 관리하기 시작하기 전에 파이프라인에 대한 명확한 기대치(Expectaions)를 정의해야 합니다. 이를 통해 현실적인 경고 임계값을 설정하고 파이프라인에 대한 유지 관리 작업 및 경고 우선 순위를 정하며, 팀 간의 책임을 구분하고 무엇보다 파이프라인이 사용자의 요구를 충족시키는지 확인할 수 있습니다.

이 섹션의 모범 사례는 아래의 기대치를 가정하고 있습니다.

  • 파이프라인 범위 내에 있는 데이터
  • 전달되는 데이터
  • 데이터가 전달되는 시기
  • 데이터가 빌드되어야 하는 시기
    • 특히 파이프라인이 주말에 실행되어야 하는지 여부
  • 데이터가 이상적으로 업데이트되어야 하는 빈도
  • 데이터가 심각하게 오래된 것으로 간주되는 시점

파이프라인 유지 관리 책임

파이프라인 관리자의 책임에는 다음이 포함됩니다.

  • 파이프라인 모니터링의 기술적 측면 설정
  • 파이프라인이 고장났을 때(데이터 상태 검사 실패시) 디버깅
  • 필요한 경우 코드 변경 및/또는 모니터링 설정 수정
  • 데이터가 잘못되었거나 시간에 맞춰 수신되지 않을 때 담당 팀에 연락

이러한 책임을 다하기 위해 파이프라인 관리자에게 권장되는 기술 및 접근 권한은 다음과 같습니다:

  • 데이터 접근(가능한 경우 권장): 적절한 데이터 접근을 통해 데이터 문제가 발생했을 때 문제를 제대로 디버깅할 수 있습니다.
  • 기술적 스킬 (권장): 파이프라인 모니터링 팀 구성원은 코드를 읽고 Code Repositories, Builds, Data Lineage 및 Data Health와 같은 파이프라인 개발 도구를 사용할 수 있어야 합니다. 이를 통해 전체 파이프라인에서 문제를 효과적으로 해석하고 분류할 수 있습니다.
  • 파이프라인 아키텍처에 대한 익숙함(선택 사항): 팀 구성원은 모니터링을 시작하기 전에 파이프라인에 익숙해져야 합니다. 이는 문서화 및 인프라 지식 관리를 통해 도움을 받을 수 있습니다.