데이터 통합HyperAuto (SDDI)HyperAuto V1설정 참조

본 번역은 검증되지 않았습니다. AIP를 통해 영문원문으로부터 번역되었습니다.

설정 참조

경고

이 섹션은 정확하게 적용되지 않으면 SDDI 파이프라인을 손상시킬 수 있는 고급 수동 설정을 설명합니다. 항상 변경 사항을 브랜치에서 확인한 후에 프로덕션에 배포하세요.

SDDI의 파이프라인은 완전 자동화된 Code Repositories에 의해 생성됩니다. Cockpit은 이러한 설정과 상호 작용하는 기본 위치입니다. 하지만 고급 파라미터를 사용하거나 비표준 소스 유형을 설정하려면 수동으로 설정 파일을 수정해야 할 수도 있습니다.

참여하는 단계를 검토하려면 파이프라인 생성에 대해 읽어보세요.

설정은 transforms-bellhop/src/config/ 폴더에 있는 두 개의 주요 파일에서 수행됩니다:

SourceConfig.yaml

다음은 완전히 정의된 SourceConfig 파일의 개념적 예시입니다.

Copied!
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 sourceName: MY_SOURCE sourceRid: ri.magritte..source.abcdefgh-1234-5678-910a-zyxwvut sapContext: type: direct rawFolderStructure: raw: /HyperAuto/source/raw dataDictionary: /HyperAuto/source/metadata cleaningLibraries: - convert_all_columns_to_clean_types deploymentSemanticVersion: 2 metadataSparkProfiles: - DRIVER_MEMORY_MEDIUM languageKey: 'E' tables: - tableName: ABCD datasetTransformsConfig: datasetName: ABCD deduplicationComparisonColumns: [] # 중복 제거 비교 열 batchUnionComponents: [] # 일괄 유니온 구성 요소 tableCleaningLibraries: [] # 테이블 정리 라이브러리 - tableName: WXYZ datasetTransformsConfig: datasetName: WXYZ deduplicationComparisonColumns: # 중복 제거 비교 열 - /PALANTIR/TIMESTAMP - /PALANTIR/ROWNO batchUnionComponents: # 일괄 유니온 구성 요소 - WXYZ_historical - WXYZ_incremental tableCleaningLibraries: # 테이블 정리 라이브러리 - parse_timestamp_column sparkProfiles: profiles: - EXECUTOR_MEMORY_MEDIUM - NUM_EXECUTORS_4

파라미터 설명

파라미터설명
sourceName소스 시스템을 식별하는 이름. 기본 키와 외래 키에 접두사로 사용됩니다.
sourceRid이 SDDI 인스턴스에 연결된 소스의 RID.
sapContext(선택 사항) SAP 컨텍스트의 상세 정보.
rawFolderStructure원시 데이터와 메타데이터가 있는 폴더를 정의합니다.
cleaningLibraries모든 테이블에 적용할 클리닝 라이브러리 목록입니다.
deduplicationConfig(선택 사항, 기본값: 없음) 중복 제거 로직에 사용할 열을 지정하는 데 사용되는 구성입니다.
metadataSparkProfiles(선택 사항, 기본값: 없음) 메타데이터 생성에 적용할 스파크 프로필 목록입니다.
languageKey(선택 사항, 기본값: 'E') 리치먼트에 사용할 언어입니다.
deploymentSemanticVersion(선택 사항, 기본값: 0) 파이프라인의 의미론적 버젼; 증가시키면 스냅샷이 강제됩니다.
tablesSDDI에서 처리할 해당 소스의 테이블 목록입니다.

sapContext

(선택 사항) SAP 컨텍스트의 상세 정보입니다. SAP Explorer는 이를 사용하여 컨텍스트를 사전 선택합니다. 각 컨텍스트는 자체 SourceConfig 파일이 필요합니다.

rawFolderStructure

원시 데이터와 메타데이터가 있는 폴더를 정의합니다.

필드:

  • raw: 원시 테이블이 수집되는 폴더 경로입니다.
  • dataDictionary: (선택 사항, 기본값:raw) 메타데이터 테이블이 수집되는 폴더 경로입니다.

cleaningLibraries

모든 테이블에 적용할 클리닝 라이브러리 목록입니다. 클리닝 함수는 transforms-bellhop/src/software_defined_integrations/transforms/cleaned/function_libraries에 정의되어 있습니다.

함수를 추가하거나 제거하려면 deploymentSemanticVersion을 증가시켜야 합니다.

deduplicationConfig

(선택 사항, 기본값: 없음) 중복 제거 로직에 사용할 열을 지정하는 데 사용되는 구성입니다. 여기에 정의된 구성은 모든 테이블에 적용됩니다.

필드:

  • comparisonColumns: 기본 키의 고유함을 결정하기 위해 최대값을 취할 열입니다.
  • changeModeColumn: (선택 사항) 지정된 경우, 이 열의 값이 D인 행이 삭제됩니다.

deploymentSemanticVersion

(선택 사항, 기본값: 0) 파이프라인의 의미론적 버젼; 증가시키면 스냅샷이 강제됩니다.

deploymentSemanticVersion이 증분 및 스냅샷 변환에 미치는 영향에 대해 증분 변환을 참조하십시오.

metadataSparkProfiles

(선택 사항, 기본값: 없음) 메타데이터 데이터셋 생성(오브젝트, 필드, 링크, diffs)에 적용할 스파크 프로필 목록입니다.

프로필을 저장소에 추가하는 것을 잊지 마십시오.

tables

SDDI에서 처리할 정의된 소스의 테이블 목록입니다.

필드:

  • tableName: 메타데이터의 테이블 이름입니다.
  • datasetTransformsConfig
    • datasetName: 원시 데이터의 Foundry 데이터셋 이름입니다.
    • deduplicationComparisonColumns: 데이터 중복 제거 및 중복 제거 로직에 사용할 열을 지정하는 테이블별 구성입니다. 전역 중복 제거 필드 이후에 적용됩니다.
    • changeModeColumn: (선택 사항) 지정된 경우, 이 열의 값이 D인 행이 삭제됩니다. 전역 변경 모드 열보다 우선 적용됩니다.
    • batchUnionComponents: 클리닝 단계 이전에 유니온 해야하는 입력 데이터셋 이름 목록입니다.
    • sparkProfiles: (선택 사항) 변환의 다른 단계에 적용할 스파크 프로필입니다.
      • profiles: 스파크 프로필; 저장소에 추가하는 방법을 참조하십시오.
      • stages: (선택 사항, 기본값: 없음) 프로필이 적용될 변환 단계. 값은 [CLEANED, DERIVED, ENRICHED, FINAL, RENAMED, RENAMED_CHANGELOG] 중 하나여야 합니다. 값이 없으면 모든 단계에서 프로필이 적용됩니다.
    • tableCleaningLibraries: 이 테이블에 적용할 클리닝 라이브러리 목록입니다. 클리닝 함수는 transforms-bellhop/src/software_defined_integrations/transforms/cleaned/function_libraries에 정의되어 있습니다. 함수를 추가하거나 제거하려면 deploymentSemanticVersion을 증가시켜야 합니다.
    • enforceUniquePrimaryKeys: (선택 사항, 기본값: 거짓). 참이고 deduplicationComparisonColumns이 정의된 경우, 중복 제거 단계에서 기본 키 당 하나의 레코드만 유지되도록 보장합니다. 이로 인해 비결정적인 동작이 발생할 수 있습니다.

PipelineConfig.yaml

가상의 완전히 정의된 PipelineConfig 파일의 예입니다.

Copied!
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 sourceName: HyperAuto sourceType: SAP_ERP sourceConfigFileNames: - SourceConfig.yaml outputFolder: /HyperAuto/source/output workflows: my_workflow: variables: - name: my_variable_name value: my_variable_value enrichments: - my_enrichment_name tables: ABCD: displayName: Header Table # 헤더 테이블 types: - OBJECT WXYZ: displayName: Item Table # 아이템 테이블 types: - OBJECT - METADATA disableForeignKeyGeneration: False # 외래 키 생성 비활성화 disableEnrichedStage: False # 풍부한 단계 비활성화 disableRenamedStage: False # 이름이 변경된 단계 비활성화

파라미터 설명

파라미터설명
projectName프로젝트 이름. 온톨로지 오브젝트에 접두사로 사용됩니다.
sourceTypeSDDI가 지원하는 소스 유형. [SAP_ERP, SALESFORCE, ORACLE_NETSUITE] 중 하나여야 합니다.
sourceConfigFileNames파이프라인에 포함할 SourceConfig 파일 이름의 목록입니다.
outputFolder결과물 데이터셋이 작성될 폴더를 정의합니다.
workflows배포할 워크플로와 설정의 목록입니다.
tables이 SDDI 파이프라인에서 처리하는 테이블의 목록입니다.
disableEnrichedStage(선택 사항, 기본값: False) 활성화하면 enriched 데이터셋이 생성되지 않습니다. 활성화하면 워크플로가 중단되므로 주의하십시오.
disableRenamedStage(선택 사항, 기본값: False) 활성화하면 renamed_changelog 데이터셋이 생성되지 않습니다. 활성화하면 워크플로가 중단되므로 주의하십시오.
disableForeignKeyGeneration활성화하면 외부 키 열이 생성되지 않습니다. 활성화하면 워크플로가 중단되므로 주의하십시오.

tables

이 SDDI 파이프라인에서 처리하는 테이블의 목록:

  • displayName: 테이블의 인간이 읽을 수 있는 이름입니다. 결과물 데이터셋 이름은 displayName (technicalName) 형식으로 구성됩니다.
  • types: 이 테이블이 나타내는 데이터 유형의 목록입니다(여러 개일 수 있음).
    • OBJECT: 온톨로지의 오브젝트를 구성하는 마스터 데이터 테이블.
    • METADATA: 오브젝트에 대한 정보와 기본 키를 구성하는 메타데이터 테이블.
    • CUSTOMIZATION: SDDI 파이프라인의 enriched 단계에서 마스터 데이터 테이블에 조인되는 풍부한 테이블.