4. 데이터 파이프라인 스케줄링4 - 일정 빌드 시점 정의하기

본 번역은 검증되지 않았습니다. AIP를 통해 영문원문으로부터 번역되었습니다.

4 - 일정 빌드 시점 정의하기

이 내용은 learn.palantir.com ↗에서도 확인할 수 있으며 접근성을 위해 여기에 제공됩니다.

📖 작업 소개

일정화된 빌드는 트리거(들)에 의해 정의된 조건이 만족될 때 실행됩니다. 트리거는 이벤트 기반(예: 데이터셋 a, b, c가 성공적으로 업데이트될 때 실행), 시간 기반(예: 매 이틀마다 03:00에 실행), 또는 두 가지의 조합일 수 있습니다. 이 작업에서는 파이프라인 일정을 시작할 다차원 이벤트 트리거를 정의할 것입니다.

📚 추천 독서 (~5분 소요)

Scheduler 관련 문서로 이동하여 트리거에 대한 자세한 내용을 읽어보세요. 이 자습서는 간단한 트리거 구성을 구현하지만, 데이터 엔지니어는 사용 가능한 복잡성을 인식해야 합니다.

🔨 작업 지시사항

  1. shift 키를 누른 채 그래프에서 raw/flight_alert_raw, priority_mapping_raw, 그리고 status_mapping_raw 노드를 드래그하여 선택하고 트리거로 지정하세요. 이 데이터셋들이 이제 Scheduler 패널의 빌드 시점 섹션에 표시됩니다.

    그러나, 예를 들어 raw/flight_alert_raw 데이터셋 변환의 코드가 업데이트되었을 때 또는 status_mapping_rawpriority_mapping_raw성공적으로 실행되었을 때 파이프라인을 업데이트하도록 더 복잡한 트리거를 활성화하려고 한다고 가정해 봅시다.

  2. Scheduler 패널의 빌드 시점 섹션에서 여러 시간 또는 이벤트 조건이 충족되었을 때 옆에 있는 라디오 버튼을 클릭합니다. 이렇게 하면 선택한 트리거가 하늘색 "알약"으로 표시되는 텍스트 영역이 열립니다.

  3. 텍스트 영역에서 flight_alerts_raw에 대한 데이터 업데이트 항목을 클릭하여 트리거 정의 창을 연다. 기본적으로 데이터셋을 트리거로 설정하면 트리거 데이터셋에 새로운 거래가 발생했을 때(예: "업데이트된 데이터"가 있는 경우) 일정이 시작됩니다. 트리거가 데이터셋을 계산하는 논리가 업데이트되었을 때 발생하도록 변경해 봅시다. 아래 이미지와 같이 트리거 논리를 Data updated ▾에서 New logic ▾으로 변경한 다음 적용을 클릭합니다.

  4. 트리거 조건 텍스트 영역에서 오른쪽에 있는 All(AND) ▾ 드롭다운 메뉴를 클릭하고 고급 구성을 선택합니다.

  5. 이 구성을 달성하기 위해 필요한 불린 조건과 괄호를 수동으로 추가합니다:

    ( flight_alerts_raw에 대한 새로운 로직 ) OR (
    status_mapping_raw에 대한 데이터 업데이트 AND
    priority_mapping_raw에 대한 데이터 업데이트 )
    

ℹ️ 데이터 파이프라인의 경우 이벤트 기반 트리거를 사용하는 것이 최선입니다. Data Connection Sync, writeback 데이터셋 및 특정 유즈케이스에 대해 시간 기반 일정을 사용합니다.