데이터 통합Data LineageUnderstand and manage datasets데이터셋 빌드

본 번역은 검증되지 않았습니다. AIP를 통해 영문원문으로부터 번역되었습니다.

데이터셋 빌드

Data Lineage 그래프를 사용하여 파이프라인에서 어떤 데이터셋이 낡았는지 확인하고, 빌드 도우미를 사용하여 Data Lineage에서 바로 빌드를 시작할 수 있습니다.

Data Lineage에서 트리거된 빌드는 항상 그래프에 설정된 브랜치(폴백 브랜치 포함)에 적용됩니다.

다음은 몇 가지 일반적인 빌드 워크플로입니다:

모든 조상 빌드

이 전략은 선택한 데이터셋과 모든 조상 데이터셋을 빌드하여 선택한 데이터셋이 완전히 최신 상태가 되게 합니다.

기본적으로 이 방법은 낡은 조상만 빌드하지만, 최신 상태의 데이터셋을 다시 빌드하도록 선택할 수 있습니다. 강제 재빌드는 빌드 시간과 자원 측면에서 비용이 많이 들 수 있습니다.

  1. 그래프에 데이터셋을 추가하거나 저장된 스냅샷을 열기.
  2. 빌드하려는 데이터셋 선택하기.
  3. 빌드 도우미에서 모든 조상 데이터셋을 선택한 다음 다음 클릭.

다음을 클릭하면 아직 어떤 빌드도 트리거되지 않습니다. 단순히 빌드될 데이터셋의 미리보기만 볼 수 있습니다.

빌드 도우미

  1. 최신 상태의 데이터셋을 강제로 재빌드하려면 강제 빌드를 클릭합니다.
  2. 빌드될 데이터셋 목록을 검토한 후 빌드 실행을 클릭하여 빌드를 트리거합니다.

모든 낡은 조상을 빌드하고 싶지 않다면, 현재의 빌드 미리보기에서 취소를 클릭한 다음 선택한 노드를 변경해야 합니다. 빌드 미리보기 화면에서 선택사항을 변경할 수는 없습니다.

모든-조상-빌드

선택한 데이터셋 사이의 모든 변형

이 전략은 빌드를 파이프라인의 하위 집합에 바인딩할 수 있게 합니다. 이 전략의 일반적인 유즈케이스는 새로운 원시 데이터가 정기적으로 파이프라인에 도착하고, 새 데이터를 반영하여 업데이트하려는 특정 데이터셋이 있지만, 모든 낡은 조상을 빌드하고 싶지 않은 경우일 수 있습니다. 그런 다음 Data Lineage를 사용하여 데이터셋을 더 최신 상태로 만들기 위해 빌드해야 하는 다른 데이터셋을 결정할 수 있습니다.

  1. 그래프에 최종적으로 빌드하려는 데이터셋을 추가합니다.
  2. 원시 데이터셋을 그래프에 추가합니다(또는 어떤 상위스트림 데이터셋)
  3. 모든 노드를 선택합니다.
  4. 빌드 도우미에서 선택한 데이터셋 사이의 모든 변형 전략을 선택한 다음 다음을 클릭합니다.

다음을 클릭하면 아직 어떤 빌드도 트리거되지 않습니다. 선택한 노드를 기반으로 빌드될 데이터셋의 미리보기만 볼 수 있습니다. 이제 데이터셋을 업데이트하기 위해 무엇이 빌드되어야 하는지 정확히 알 수 있습니다. 모든 데이터셋을 빌드하고 싶지 않을 수 있습니다 - 아마도 하루에 한 번만 빌드해야 하는 매우 큰 파생 데이터셋이 있을 수 있으므로 목록 하단에 그래프에 모두 추가를 클릭합니다.

선택된 데이터셋

이 전략은 빌드하려는 개별 데이터셋을 선택할 수 있게 합니다. 데이터셋 간에 의존성이 있다면, 조상이 빌드된 후 후손이 빌드되도록 순서가 보장된 상태에서 빌드가 실행됩니다.

빌드하려는 데이터셋을 변경하려면, 현재 빌드 미리보기에서 취소를 클릭하고, 선택한 노드를 변경한 다음 새 미리보기를 입력해야 합니다. 빌드 미리보기 화면에서 빌드 선택사항을 변경할 수는 없습니다.

빌드될 최종 데이터셋 목록을 검토한 후 빌드 실행을 클릭하여 빌드를 트리거합니다.