4. 데이터 파이프라인 스케줄링3 - 일정이 빌드할 항목 정의하기

본 번역은 검증되지 않았습니다. AIP를 통해 영문원문으로부터 번역되었습니다.

3 - 일정이 빌드할 항목 정의하기

이 콘텐츠는 learn.palantir.com ↗에서도 확인할 수 있으며 접근성을 위해 여기에 제공됩니다.

📖 작업 소개

일정 대상은 주어진 일정의 종착점을 나타내며 Data Lineage 애플리케이션의 오른쪽 상단에 설정된 브랜치에서 빌드됩니다.

🔨 작업 지시사항

  1. Data Lineage 그래프에서 flight_alerts_clean 데이터셋 노트를 클릭하고 사용 가능한 옵션들을 확인하세요. 연결 빌드에서 UI는 세 가지 "WHAT" 옵션과 하나의 "WHEN"(그리고 지정을 제거하는 지우기 버튼)을 제공합니다.

    • Input: 이 데이터셋은 빌드되지 않고 파이프라인의 다음 단계로 입력으로 사용됩니다. 연결 빌드는 입력과 트리거 사이의 모든 데이터셋을 빌드합니다. 입력은 제외하고 대상은 포함합니다.
    • Target: 일정에서 빌드할 최종 데이터셋입니다.
    • Excluded: 입력과 대상 사이의 데이터셋 중 파이프라인의 일부로 실행하고 싶지 않은 경우 이 옵션을 사용하세요.
    • Trigger: 다음 작업에서 설명하는 것처럼 데이터셋을 트리거로 지정하면 파이프라인을 실행하는 조건이 됩니다.
  2. Target을 선택합니다. 이제 flight_alerts_clean 데이터셋이 Scheduler 창의 Target datasets 섹션에 표시됩니다.

  3. shift 키를 누르고 raw/flight_alerts_raw, priority_mapping_raw, status_mapping_raw 주변에 선택 상자를 드래그하여 Inputs로 선택합니다. 이렇게 하면 일정이 트리거될 때 빌드되지 않고 다운스트림 빌드의 입력으로 사용됩니다.

    • 세 가지 선택한 데이터셋이 이제 Scheduler 패널의 Input dataset 섹션에 표시되고 전처리된 데이터셋 노드는 파란색으로 표시됩니다. 범례에서 확인할 수 있듯이, 입력과 대상 사이의 데이터셋을 빌드하려고 시도하므로 "연결" 빌드를 생성합니다.

ℹ️ 왜 (시뮬레이션된) 데이터 소스를 입력으로 선택하지 않았나요? 가장 상위에 있는 그룹화된 데이터셋은 외부 데이터 소스를 시뮬레이션하고, 방금 Inputs로 표시한 데이터셋은 그 외부 소스로부터의 원시 테이블 복사본을 시뮬레이션합니다. Data Connection Sync 일정은 빌드의 나머지 부분과 별도로 구성해야 합니다. 이 튜토리얼에서 후술하는 Force Build 옵션을 사용하세요.