データ統合HyperAuto (SDDI)HyperAuto V1設定リファレンス

注: 以下の翻訳の正確性は検証されていません。AIPを利用して英語版の原文から機械的に翻訳されたものです。

設定リファレンス

警告

このセクションでは、適切に適用しないと SDDI パイプラインが壊れた状態になる可能性がある高度な手動設定について説明します。変更内容はブランチで常に検証し、プロダクションにデプロイする前に確認してください。

SDDIのパイプラインは完全自動化されたコードリポジトリによって生成されます。Cockpit がこれらの設定と対話するデフォルトの場所ですが、高度なパラメーターや標準外のソースタイプを設定するためには、設定ファイルを手動で修正する必要があるかもしれません。

手順の詳細については、パイプライン生成について読んでください。

設定は、transforms-bellhop/src/config/フォルダーにある2つのメインファイル内で行われます:

SourceConfig.yaml

以下は、完全に定義された SourceConfig ファイルの概念例です。

Copied!
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 sourceName: MY_SOURCE # ソースの名前 sourceRid: ri.magritte..source.abcdefgh-1234-5678-910a-zyxwvut # ソースのリソース識別子 sapContext: type: direct # SAPのコンテキストタイプ rawFolderStructure: # データソースのディレクトリ構造 raw: /HyperAuto/source/raw # 生データの保存場所 dataDictionary: /HyperAuto/source/metadata # メタデータの保存場所 cleaningLibraries: # クリーニング用のライブラリ - convert_all_columns_to_clean_types # すべての列をクリーンなタイプに変換する deploymentSemanticVersion: 2 # デプロイメントのセマンティックバージョン metadataSparkProfiles: - DRIVER_MEMORY_MEDIUM # Sparkのメタデータ処理用プロファイル languageKey: 'E' # 言語キー tables: # テーブル情報 - tableName: ABCD # テーブル名 datasetTransformsConfig: # データセット変換の設定 datasetName: ABCD # データセット名 deduplicationComparisonColumns: [] # 重複排除の比較列 batchUnionComponents: [] # バッチユニオンコンポーネント tableCleaningLibraries: [] # テーブルクリーニング用ライブラリ - tableName: WXYZ # テーブル名 datasetTransformsConfig: # データセット変換の設定 datasetName: WXYZ # データセット名 deduplicationComparisonColumns: # 重複排除の比較列 - /PALANTIR/TIMESTAMP - /PALANTIR/ROWNO batchUnionComponents: # バッチユニオンコンポーネント - WXYZ_historical - WXYZ_incremental tableCleaningLibraries: # テーブルクリーニング用ライブラリ - parse_timestamp_column # タイムスタンプ列の解析 sparkProfiles: # Sparkのプロファイル profiles: - EXECUTOR_MEMORY_MEDIUM # 実行者のメモリサイズ(中) - NUM_EXECUTORS_4 # 実行者の数(4)

パラメーターの説明

パラメーター説明
sourceNameソースシステムを識別するための名前。主キーと外部キーの接頭辞として使用されます。
sourceRidこの SDDI インスタンスにアタッチされたソースの RID。
sapContext(オプション) SAP コンテキストの詳細。
rawFolderStructure生データとメタデータが格納されるフォルダーを定義します。
cleaningLibrariesすべてのテーブルに適用するクリーニングライブラリのリスト。
deduplicationConfig(オプション、デフォルト: なし) 重複ロジックに使用するカラムを指定するための設定。
metadataSparkProfiles(オプション、デフォルト: なし) メタデータ生成に適用する Spark プロファイルのリスト。
languageKey(オプション、デフォルト: 'E') エンリッチメントで使用する言語。
deploymentSemanticVersion(オプション、デフォルト: 0) パイプラインのセマンティックバージョン。インクリメントするとスナップショットが強制されます。
tablesSDDI で処理されるそのソースからのテーブルのリスト。

sapContext

(オプション) SAP コンテキストの詳細。SAP Explorer はこれを使用してコンテキストを事前選択します。各コンテキストは独自の SourceConfig ファイルを持つ必要があります。

rawFolderStructure

生データとメタデータが格納されるフォルダーを定義します。

フィールド:

  • raw: 生のテーブルが取り込まれるフォルダーのパス。
  • dataDictionary: (オプション、デフォルト:raw) メタデータのテーブルが取り込まれるフォルダーのパス。

cleaningLibraries

すべてのテーブルに適用するクリーニングライブラリのリスト。クリーニング関数は transforms-bellhop/src/software_defined_integrations/transforms/cleaned/function_libraries で定義されています。

関数の追加または削除には、deploymentSemanticVersion をインクリメントする必要があります。

deduplicationConfig

(オプション、デフォルト: なし) 重複ロジックに使用するカラムを指定するための設定。ここで定義された設定は、すべてのテーブルに適用されます。

フィールド:

  • comparisonColumns: 主キーの一意性を決定するために、最大値が取られるカラム。
  • changeModeColumn: (オプション) 指定された場合、このカラムの値が D の行が削除されます。

deploymentSemanticVersion

(オプション、デフォルト: 0) パイプラインのセマンティックバージョン。インクリメントするとスナップショットが強制されます。

deploymentSemanticVersion がインクリメンタルおよびスナップショット変換にどのような影響を与えるかについては、Incremental Transforms を参照してください。

metadataSparkProfiles

(オプション、デフォルト: なし) メタデータデータセット生成(objectsfieldslinksdiffs)に適用する Spark プロファイルのリスト。

プロファイルがリポジトリに追加されていることを確認してください。

tables

SDDI で処理される定義済みソースからのテーブルのリスト。

フィールド:

  • tableName: メタデータ内のテーブル名。
  • datasetTransformsConfig
    • datasetName: 生データの Foundry データセット名。
    • deduplicationComparisonColumns: データの重複を削除し、重複ロジックに使用するカラムを指定するためのテーブル固有の設定。グローバルな重複フィールドの後に適用されます。
    • changeModeColumn: (オプション) 指定された場合、このカラムの値が D の行が削除されます。グローバルな変更モードカラムを上書きします。
    • batchUnionComponents: クリーニングステップの前にユニオンされるべき入力データセット名のリスト。
    • sparkProfiles: (オプション) 変換のさまざまな段階で適用する Spark プロファイル。
      • profiles: Spark プロファイル。リポジトリへの追加方法の詳細を参照してください。
      • stages: (オプション、デフォルト: なし) プロファイルが適用されるべき変換ステージ。値は [CLEANED, DERIVED, ENRICHED, FINAL, RENAMED, RENAMED_CHANGELOG] のいずれかである必要があります。None の場合、すべてのステージでプロファイルが適用されます。
    • tableCleaningLibraries: このテーブルに適用するクリーニングライブラリのリスト。クリーニング関数は transforms-bellhop/src/software_defined_integrations/transforms/cleaned/function_libraries で定義されています。関数の追加または削除には、deploymentSemanticVersion をインクリメントする必要があります。
    • enforceUniquePrimaryKeys: (オプション、デフォルト: False) True であり、deduplicationComparisonColumns が定義されている場合、重複ステージで主キーごとに1つのレコードのみが保持されることが保証されます。これにより、非決定的な動作が生じる場合があります。

PipelineConfig.yaml

概念的に完全に定義された PipelineConfig ファイルの例です。

Copied!
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 sourceName: HyperAuto # ソース名: HyperAuto sourceType: SAP_ERP # ソースタイプ: SAP_ERP sourceConfigFileNames: # ソース設定ファイル名: - SourceConfig.yaml # SourceConfig.yamlを含む outputFolder: /HyperAuto/source/output # 出力フォルダ: /HyperAuto/source/output workflows: # ワークフロー: my_workflow: # ワークフロー名: my_workflow variables: # 変数: - name: my_variable_name # 変数名: my_variable_name value: my_variable_value # 値: my_variable_value enrichments: # 濃縮: - my_enrichment_name # 濃縮名: my_enrichment_name tables: # テーブル: ABCD: # テーブル名: ABCD displayName: Header Table # 表示名: Header Table types: # タイプ: - OBJECT # OBJECTを含む WXYZ: # テーブル名: WXYZ displayName: Item Table # 表示名: Item Table types: # タイプ: - OBJECT # OBJECTを含む - METADATA # METADATAも含む disableForeignKeyGeneration: False # 外部キー生成を無効にする: False disableEnrichedStage: False # 濃縮ステージを無効にする: False disableRenamedStage: False # 名前変更ステージを無効にする: False

パラメーターの説明

パラメーター説明
projectNameプロジェクト名。オントロジーのオブジェクトに接頭辞として使用されます。
sourceTypeSDDI がサポートするソースの種類。[SAP_ERP, SALESFORCE, ORACLE_NETSUITE] のいずれかである必要があります。
sourceConfigFileNamesパイプラインに含める SourceConfig ファイル名のリスト。
outputFolder出力データセットが書き込まれるフォルダーを定義します。
workflowsデプロイするワークフローのリストとその設定。
tablesこの SDDI パイプラインで処理される行のリスト。
disableEnrichedStage(オプション、デフォルト:False)有効にすると、エンリッチされたデータセットが生成されません。ワークフローが壊れることがあるため、注意して使用してください。
disableRenamedStage(オプション、デフォルト:False)有効にすると、renamed_changelog データセットが生成されません。ワークフローが壊れることがあるため、注意して使用してください。
disableForeignKeyGeneration有効にすると、外部キー行が生成されません。ワークフローが壊れることがあるため、注意して使用してください。

tables

この SDDI パイプラインで処理される行のリスト:

  • displayName: 表の読みやすい名前。出力データセットの名前は、displayName (technicalName) の形式で構築されます。
  • types: この表が表すデータ型のリスト(複数可)。
    • OBJECT: オントロジー内のオブジェクトを構成するマスターデータ表。
    • METADATA: オブジェクト情報や主キー構築に関する情報を含むメタデータ表。
    • CUSTOMIZATION: SDDI パイプラインの enriched ステップでマスターデータ表に結合されるエンリッチメント表。