4. 데이터 파이프라인 스케줄링1 - 이 강좌에 대하여

본 번역은 검증되지 않았습니다. AIP를 통해 영문원문으로부터 번역되었습니다.

1 - 이 강좌에 대하여

이 내용은 learn.palantir.com ↗에서도 확인할 수 있으며, 접근성을 위해 여기에 제시됩니다.

배경

데이터 파이프라인이 특정 주기로 수동 개입 없이 실행해야 할 때, 데이터 파이프라인을 자동으로 빌드하도록 일정을 설정해야 합니다.

깨끗한 코드와 좋은 문서와 함께, 신뢰할 수 있는 제품 데이터 파이프라인에는 자동화된 일정 로직이 필요합니다. 그러나, 파이프라인에 있는 빌드를 순차적으로 강제로 실행하는 것은 일반적으로 현명하지 않습니다. 데이터 변환을 실행하려면 Spark 계산이 필요하기 때문에, 불필요하고 비용이 많이 드는 자원 사용을 피하기 위해 신중하게 계획해야 합니다. 이 튜토리얼에서 보게 될 것처럼, 파이프라인 Scheduler 인터페이스를 사용하면 파이프라인 일정의 입력과 결과물("무엇"을 빌드할 것인가) 그리고 실행 조건("언제" 빌드해야 하는가)을 빠르게 정의하는 것이 쉽습니다.

파이프라인(또는 파이프라인의 단계)이 빌드되고 일정이 설정되면(나중에 다룰 감시가 적용된 후), 프로젝트의 실행 로직과 다른 주요 파이프라인 기능에 대한 문서를 작성하는 것을 강력히 권장합니다.

⚠️ 강좌 선수 조건

DATAENG 03: 이 트랙의 이전 강좌를 완료하지 않았다면 지금 완료하십시오.

결과

이 튜토리얼은 자동화된 데이터 파이프라인 일정을 생성하기 위한 기본 사항과 모범 사례를 전달하는 데 목표를 두고 있습니다. Foundry의 Scheduler 애플리케이션은 파이프라인 구성을 직관적인 인터페이스로 추상화하여 데이터 신선도 SLA를 유지하고 Spark 계산 자원 낭비의 위험을 최소화하기 위한 실행 조건을 설정할 수 있게 합니다.

파이프라인 일정을 설정한 후에는, Datasource Project 단계의 기능에 대한 문서를 추가할 기회가 있습니다. 파이프라인 로직, SLA, 유지보수 절차, 문제 해결 이력에 대한 설명적인 문서는 엔트로피에 대한 가치 있는 예방책이며, 프로젝트를 장기적으로 유지할 수 있게 설정합니다.

🥅 학습 목표

  1. Scheduler 애플리케이션 탐색하기.
  2. Foundry 데이터 파이프라인 일정 설정에 대한 모범 사례 배우기.

💪 Foundry 기술

  • 파이프라인 일정 생성하기.