注: 以下の翻訳の正確性は検証されていません。AIPを利用して英語版の原文から機械的に翻訳されたものです。

HyperAuto V2 設定オプション

このページでは、HyperAuto V2 の設定オプションについて説明します。以下の手順で HyperAuto V2 の設定プロセスが構成されます。

HyperAuto V1 設定リファレンスについては、レガシードキュメントを参照してください。

名前と場所

HyperAuto V2 設定ウィザードの最初のステップは、新しいパイプラインの名前と Foundry ファイルシステム内の所望のフォルダー場所を指定することです。HyperAuto パイプラインリソースと関連する出力データセットは、このフォルダー内に作成されます。

ソース設定

HyperAuto V2 ソース設定ページでは、ソースシステムと取り込み方法を選択できます。

ウィザード内の HyperAuto V2 ソース設定

ソースシステム

この選択は、(例えばSAP 内の "contexts"のように)ユーザーがサブシステム間で選択する必要があるソースに対して利用可能です。サブシステムは、独自のテーブルとメタデータのセットをもたらすソース内の設定として定義されます。その結果、サブシステム間の切り替えは、入力設定ページで選択可能なテーブルや既存の同期など、他の利用可能な設定を完全に変更します。

SAP ソースシステム

Foundry を SAP システムに接続するための 3 つの主要なアーキテクチャパターンがあります。

  • 直接: コネクタは ERP システム自体のアプリケーションサーバーにインストールされ、テーブルへの直接アクセスが提供されます。
  • SLT: コネクタは SAP SLT レプリケーションサーバーにインストールされ、基本的な ERP システムに接続します。SLT は、ストリーミングパイプラインモードを使用するために必要です。
  • リモート: コネクタは、基本的な ERP システムに接続する "ゲートウェイ"アプリケーションサーバーにインストールされます。SAP ソースがコネクタ前提条件を満たさない場合によく使用されます。 SLT またはリモート接続の場合、ユーザーはどの SAP サブシステムに接続するかを識別するために使用されるコンテキストを選択する必要があります。

パイプラインモード

HyperAuto は、同期およびデータ変換の 2 つのモードをサポートしています。ソース設定ページでストリーミングモードとバッチモードのどちらかを選択できます。

  • バッチ: パイプラインの各実行は、すべての入力を再処理し、すべての既存の出力を上書きします。これはデフォルトのモードであり、集計や重複排除などの最も広範な機能を提供します。ほとんどのユースケースで推奨されるモードです。
  • ストリーミング(ベータ): ソースシステムは、以前に処理されていないデータを定期的にポーリングします。ソースシステムで利用可能になると、データはすぐに処理され、同期からオントロジーへの遅延をほぼリアルタイムに短縮します。これは、オントロジーに依存してストリーミングされたデータを重複排除するリアルタイムアプリケーションを強化するのに特に価値があります。
    • ストリーミングを有効にするには、Palantir の担当者に連絡してください。

ストリーミングは、リアルタイムでデータを処理するために常時オンの計算が必要であり、ソースシステムと Foundry 内での負荷が増加する可能性があります。

入力設定

入力設定ページは、特定の HyperAuto パイプラインで処理する特定の入力をユーザーが選択する場所です。

入力設定ウィザード

使いやすさのために、入力選択 UI は、関連するソーステーブルを検索および発見するいくつかの方法をサポートしています。SAP の場合、方法は次のとおりです。

  • モジュール: ソース内のテーブルを意見化したカテゴリ分けで、ユーザーが探索および一括追加できる階層ビューを提供します。テーブルは、必要に応じて複数のモジュールに存在する場合がありますが、一度しか選択できません。
  • ワークフロー: テーブルのカテゴリ分けの別の形式で、ソースの特定の一般的なユースケース(SAP ソースの場合は、サプライチェーン管理など)に焦点を当てています。同様に、ユーザーは必要に応じてワークフローを探索および一括追加でき、途中でモジュールと切り替えても進行状況を失わずに誤って選択を重複させることはありません。

入力設定ページからも同期の作成が可能であり、ユーザーはまだ同期がない入力に対して新しい同期を作成できます。これにより、ユーザーは新しいソースから完全に設定された HyperAuto パイプラインを作成するまでの手間を省くことができます。

ベータ機能

同期作成はベータ機能であり、Foundry インスタンスで利用できない場合があります。この機能を使用したい場合は、プラットフォーム管理者に連絡してください。

Foundry エンロールメントには、Suggest タブで AIP 機能が有効になっている場合があります。詳細については、AIP ドキュメントを参照してください。

パイプライン設定

パイプライン設定ページでは、ニーズに合ったパイプラインを設定できます。オプションには次のものがあります。

パイプライン設定ウィザード

言語選択

複数の言語のデータを含むテーブルがあるソースの場合、HyperAuto は言語フィルタリングステップを提供して、出力内で可能な言語ごとに複数の行を記入しないようにします。ここで選択された言語は、関連するテーブルに対してフィルターとして適用され、他のテーブルへの結合などの追加変換が適用される前に行われます。

設定オプション

ユーザーは、パイプライン設定オプションからソース入力全体に自動的に適用される処理の量を決定できます。すべての設定オプションはデフォルトで有効になっていますが、必要に応じて無効にすることができます(たとえば、機能とパイプラインのパフォーマンスのバランスを取るために)。

自動結合

自動結合の例

HyperAuto は、ソースのメタデータを介してテーブルの分類を受け取り、それらをオブジェクトまたは濃縮テーブルに分割します。この定義では、濃縮テーブルはそれ自体が本質的に価値のあるものではなく、関連するオブジェクトテーブルに対する拡張やルックアップテーブルとして機能するものです(たとえば、テキスト説明テーブルなど)。

このように、HyperAuto は、ソースから object <-> enrichment テーブルの関係をクエリし、濃縮テーブルからオブジェクトテーブルへの対応する左結合を生成します。これにより、オブジェクトごとに豊富で包括的な非正規化データセットが得られ、他のテーブルとの結合を必要とせずに包括的なレビューが可能になります。

これは、意味的に指向された非正規化データモデルを使用する Foundry オントロジーの構築に特に役立ちます。

SAP での自動結合

SAP の場合、"TEXT" テーブルは HyperAuto の処理内で Enrichment テーブルとして分類されます。例えば、MAKT(材料の説明)は MARA(一般的な材料データ)に結合できます。

人間が読める列名

人間が読める列名

HyperAuto は、ソースから提供される列メタデータを使用して、ソースで定義された列名を自己説明的で簡単に使用できる名前に変更できます。

これは、列の人間が読める名前を元の列名に連結することで行われ、Human readable_|_original の形式でデータとやり取りする際に両方の形式にアクセスできるようにします。

主キーの生成

主キーの生成

ソースに単一列の主キーがない場合、HyperAuto は主キーを動的に生成できます。ソースのメタデータには、どの列が一緒に主キーを構成するかを示す情報が含まれており、HyperAuto は primary_key 列を作成するための連結ロジックを構築します。

値は _|_ セパレータで連結されます。

主キーとして単一の列を持つことは、オントロジーオブジェクトの元データセットとして出力を使用するために必要です。

外部キーの生成

外部キーの生成

HyperAuto は、ソースのデータモデルメタデータで定義されたオブジェクト間の関係にもアクセスできます。メタデータを使用して、外部キー列ごとにロジックをパイプラインに作成できます(主キーロジックと同様に、関連する列を連結して、オントロジーリンクの作成や結合に使用できます)。

外部キーは、column1_column2_|_foreign_key_tableA の形式で名前が付けられ、次のようになります。

  • 列値は、column1column2 をセパレータ _|_ で連結して構築されます。
  • 列を介してこのテーブルを tableAprimary_key に結合できる外部関係が存在します。

オブジェクト間のオントロジー関係を生成するには、外部キーが必要です。

自動結合設定オプションが有効になっている場合、オブジェクト間の関係に対して外部キーは作成されません。

行の重複排除

行の重複排除

HyperAuto は、重複する行を含むテーブルを自動的に重複排除するロジックを提供します。これは、変更が発生するたびに新しい行が追加される変更データキャプチャ(CDC)システムのようなケースで役立ちます。HyperAuto は、各主キーの最新の最新行を選択して重複排除を行います。

データクリーニング

データクリーニング

データクリーニング設定オプションは、すべてのテーブルから一般的なデータ清潔度の問題を削除します。対処される問題の種類についての詳細は以下を参照してください。

SAP データクリーニング
  • 空文字列の処理: "" 文字列は null に変換されます(Foundry でのデータの標準的な方法)。
  • DECIMAL キャスティング: DECIMAL データ型は DOUBLE にキャストされ、プラットフォーム全体で利点が得られます(オントロジーのプロパティに対するサポートを含む)。