注: 以下の翻訳の正確性は検証されていません。AIPを利用して英語版の原文から機械的に翻訳されたものです。
このセクションでは、適切に適用しないと SDDI パイプラインが壊れた状態になる可能性がある高度な手動設定について説明します。変更内容はブランチで常に検証し、プロダクションにデプロイする前に確認してください。
SDDIのパイプラインは完全自動化されたコードリポジトリによって生成されます。Cockpit がこれらの設定と対話するデフォルトの場所ですが、高度なパラメーターや標準外のソースタイプを設定するためには、設定ファイルを手動で修正する必要があるかもしれません。
手順の詳細については、パイプライン生成について読んでください。
設定は、transforms-bellhop/src/config/
フォルダーにある2つのメインファイル内で行われます:
以下は、完全に定義された SourceConfig ファイルの概念例です。
Copied!1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35
sourceName: MY_SOURCE # ソースの名前 sourceRid: ri.magritte..source.abcdefgh-1234-5678-910a-zyxwvut # ソースのリソース識別子 sapContext: type: direct # SAPのコンテキストタイプ rawFolderStructure: # データソースのディレクトリ構造 raw: /HyperAuto/source/raw # 生データの保存場所 dataDictionary: /HyperAuto/source/metadata # メタデータの保存場所 cleaningLibraries: # クリーニング用のライブラリ - convert_all_columns_to_clean_types # すべての列をクリーンなタイプに変換する deploymentSemanticVersion: 2 # デプロイメントのセマンティックバージョン metadataSparkProfiles: - DRIVER_MEMORY_MEDIUM # Sparkのメタデータ処理用プロファイル languageKey: 'E' # 言語キー tables: # テーブル情報 - tableName: ABCD # テーブル名 datasetTransformsConfig: # データセット変換の設定 datasetName: ABCD # データセット名 deduplicationComparisonColumns: [] # 重複排除の比較列 batchUnionComponents: [] # バッチユニオンコンポーネント tableCleaningLibraries: [] # テーブルクリーニング用ライブラリ - tableName: WXYZ # テーブル名 datasetTransformsConfig: # データセット変換の設定 datasetName: WXYZ # データセット名 deduplicationComparisonColumns: # 重複排除の比較列 - /PALANTIR/TIMESTAMP - /PALANTIR/ROWNO batchUnionComponents: # バッチユニオンコンポーネント - WXYZ_historical - WXYZ_incremental tableCleaningLibraries: # テーブルクリーニング用ライブラリ - parse_timestamp_column # タイムスタンプ列の解析 sparkProfiles: # Sparkのプロファイル profiles: - EXECUTOR_MEMORY_MEDIUM # 実行者のメモリサイズ(中) - NUM_EXECUTORS_4 # 実行者の数(4)
パラメーター | 説明 |
---|---|
sourceName | ソースシステムを識別するための名前。主キーと外部キーの接頭辞として使用されます。 |
sourceRid | この SDDI インスタンスにアタッチされたソースの RID。 |
sapContext | (オプション) SAP コンテキストの詳細。 |
rawFolderStructure | 生データとメタデータが格納されるフォルダーを定義します。 |
cleaningLibraries | すべてのテーブルに適用するクリーニングライブラリのリスト。 |
deduplicationConfig | (オプション、デフォルト: なし) 重複ロジックに使用するカラムを指定するための設定。 |
metadataSparkProfiles | (オプション、デフォルト: なし) メタデータ生成に適用する Spark プロファイルのリスト。 |
languageKey | (オプション、デフォルト: 'E') エンリッチメントで使用する言語。 |
deploymentSemanticVersion | (オプション、デフォルト: 0) パイプラインのセマンティックバージョン。インクリメントするとスナップショットが強制されます。 |
tables | SDDI で処理されるそのソースからのテーブルのリスト。 |
sapContext
(オプション) SAP コンテキストの詳細。SAP Explorer はこれを使用してコンテキストを事前選択します。各コンテキストは独自の SourceConfig ファイルを持つ必要があります。
rawFolderStructure
生データとメタデータが格納されるフォルダーを定義します。
フィールド:
raw
: 生のテーブルが取り込まれるフォルダーのパス。dataDictionary
: (オプション、デフォルト:raw
) メタデータのテーブルが取り込まれるフォルダーのパス。cleaningLibraries
すべてのテーブルに適用するクリーニングライブラリのリスト。クリーニング関数は transforms-bellhop/src/software_defined_integrations/transforms/cleaned/function_libraries
で定義されています。
関数の追加または削除には、deploymentSemanticVersion
をインクリメントする必要があります。
deduplicationConfig
(オプション、デフォルト: なし) 重複ロジックに使用するカラムを指定するための設定。ここで定義された設定は、すべてのテーブルに適用されます。
フィールド:
comparisonColumns
: 主キーの一意性を決定するために、最大値が取られるカラム。changeModeColumn
: (オプション) 指定された場合、このカラムの値が D
の行が削除されます。deploymentSemanticVersion
(オプション、デフォルト: 0) パイプラインのセマンティックバージョン。インクリメントするとスナップショットが強制されます。
deploymentSemanticVersion
がインクリメンタルおよびスナップショット変換にどのような影響を与えるかについては、Incremental Transforms を参照してください。
metadataSparkProfiles
(オプション、デフォルト: なし) メタデータデータセット生成(objects
、fields
、links
、diffs
)に適用する Spark プロファイルのリスト。
プロファイルがリポジトリに追加されていることを確認してください。
tables
SDDI で処理される定義済みソースからのテーブルのリスト。
フィールド:
tableName
: メタデータ内のテーブル名。datasetTransformsConfig
datasetName
: 生データの Foundry データセット名。deduplicationComparisonColumns
: データの重複を削除し、重複ロジックに使用するカラムを指定するためのテーブル固有の設定。グローバルな重複フィールドの後に適用されます。changeModeColumn
: (オプション) 指定された場合、このカラムの値が D
の行が削除されます。グローバルな変更モードカラムを上書きします。batchUnionComponents
: クリーニングステップの前にユニオンされるべき入力データセット名のリスト。sparkProfiles
: (オプション) 変換のさまざまな段階で適用する Spark プロファイル。
profiles
: Spark プロファイル。リポジトリへの追加方法の詳細を参照してください。stages
: (オプション、デフォルト: なし) プロファイルが適用されるべき変換ステージ。値は [CLEANED, DERIVED, ENRICHED, FINAL, RENAMED, RENAMED_CHANGELOG] のいずれかである必要があります。None の場合、すべてのステージでプロファイルが適用されます。tableCleaningLibraries
: このテーブルに適用するクリーニングライブラリのリスト。クリーニング関数は transforms-bellhop/src/software_defined_integrations/transforms/cleaned/function_libraries
で定義されています。関数の追加または削除には、deploymentSemanticVersion
をインクリメントする必要があります。enforceUniquePrimaryKeys
: (オプション、デフォルト: False) True であり、deduplicationComparisonColumns
が定義されている場合、重複ステージで主キーごとに1つのレコードのみが保持されることが保証されます。これにより、非決定的な動作が生じる場合があります。概念的に完全に定義された PipelineConfig ファイルの例です。
Copied!1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25
sourceName: HyperAuto # ソース名: HyperAuto sourceType: SAP_ERP # ソースタイプ: SAP_ERP sourceConfigFileNames: # ソース設定ファイル名: - SourceConfig.yaml # SourceConfig.yamlを含む outputFolder: /HyperAuto/source/output # 出力フォルダ: /HyperAuto/source/output workflows: # ワークフロー: my_workflow: # ワークフロー名: my_workflow variables: # 変数: - name: my_variable_name # 変数名: my_variable_name value: my_variable_value # 値: my_variable_value enrichments: # 濃縮: - my_enrichment_name # 濃縮名: my_enrichment_name tables: # テーブル: ABCD: # テーブル名: ABCD displayName: Header Table # 表示名: Header Table types: # タイプ: - OBJECT # OBJECTを含む WXYZ: # テーブル名: WXYZ displayName: Item Table # 表示名: Item Table types: # タイプ: - OBJECT # OBJECTを含む - METADATA # METADATAも含む disableForeignKeyGeneration: False # 外部キー生成を無効にする: False disableEnrichedStage: False # 濃縮ステージを無効にする: False disableRenamedStage: False # 名前変更ステージを無効にする: False