4. 데이터 파이프라인 스케줄링5 - 스케줄 빌드 정의하기

본 번역은 검증되지 않았습니다. AIP를 통해 영문원문으로부터 번역되었습니다.

5 - 스케줄 빌드 정의하기

이 내용은 learn.palantir.com ↗에서도 확인할 수 있으며, 접근성을 위해 여기에도 제공됩니다.

📖 작업 소개

파이프라인의 무엇(WHAT)과 언제(WHEN)를 정의했지만, 이 스케줄에서 빌드가 어떻게 실행되어야 하는지를 구조화하는 몇 가지 추가 설정이 있습니다.

🔨 작업 지시사항

  1. Scheduler 패널의 빌드 범위 섹션에서 드롭다운을 프로젝트 범위로 설정합니다. 간단히 말해, 이를 통해 스케줄이 개별 사용자의 권한이 아닌 프로젝트 권한으로 토큰을 실행하도록 설정할 수 있습니다.

    • 📚 추천 독서 (~3분 소요). 이 문서에서 프로젝트 대비 사용자 범위에 대해 읽어보세요.
  2. Scheduler 패널 하단의 접힌 ▸ 고급 옵션 섹션을 엽니다.

  3. 실패 시 빌드 중단 옵션을 선택합니다. 파이프라인의 일부가 업데이트되는 동안 다른 부분이 실패하는 상황을 원하지 않으며, 단일 실패에 전체 스케줄을 중단하면 파이프라인에서 이러한 불균형을 방지하는 데 도움이 됩니다.

  4. 실패한 작업의 시도 횟수를 사용자 정의 옵션을 설정합니다. 재시도 횟수를 3회, 재시도 간격을 1분으로 설정합니다. 이 설정은 일시적으로 빌드를 중단시킨 네트워크 문제나 기타 "불안정성"을 극복하는 데 도움이 됩니다.

    ℹ️ 고급 설정강제 빌드 옵션은 Data Connection 수집에만 사용되어야 합니다. 그렇지 않으면 빌드할 필요가 없는 데이터셋을 빌드하게 되어 Spark 계산 리소스를 낭비할 수 있습니다.

  5. 스케줄 패널 하단 오른쪽의 파란색 저장하기 버튼을 클릭하여 스케줄을 저장합니다.

📚 추천 독서 (~7분 소요)

이 연습에서는 기본 스케줄 설정을 약간 다루었습니다. 이 링크를 통해 파이프라인 스케줄링에 대한 Foundry 문서 페이지로 이동하고, 데이터 엔지니어는 이 페이지를 데이터 파이프라인을 구축하거나 개선할 때 북마크하는 것을 고려해야 합니다.