注: 以下の翻訳の正確性は検証されていません。AIPを利用して英語版の原文から機械的に翻訳されたものです。

HyperAuto V2 アーキテクチャ

このページでは、HyperAuto V2 のアーキテクチャについて説明します。 HyperAuto V1 のアーキテクチャの説明については、HyperAuto V1 概要 を参照してください。

HyperAuto V2 は、データ統合ワークフローの3つの主要なコンポーネント - データ同期Builder パイプラインオントロジー - を自動化し、サポートされているソースからすぐに使える出力を生成します。

HyperAuto はデータソースのメタデータを活用し、ソースをリアルタイムでクエリして、同期の構築方法、適用すべき変換ロジック、適切なオントロジーの設計方法についての意見を導出します。

HyperAuto パイプラインとは、同期からオブジェクトまで、単一の HyperAuto インスタンスで管理されるすべてのリソースを指します。各パイプラインは、ユーザーが提供したソーステーブルのリストを入力として受け取り、それらを Foundry に同期し(必要に応じて)、価値ある、すぐに使用できる出力データセットおよび(オプションで)オントロジーオブジェクトに変換します。ユーザーは、個々のニーズに合わせて、ソースごとに複数の HyperAuto パイプラインを作成することができます。

HyperAuto V2 のアーキテクチャのグラフ

データ同期

HyperAuto は、ソース上のすべての表示可能なテーブルにアクセスを提供します。ユーザーが既存のデータ同期にマップされていないソーステーブルを選択した場合、新しいデータ同期が自動的に生成されます。

入力設定 ページで、入力テーブルの設定 ボタンにカーソルを合わせることで、ソーステーブル から データ同期 へのマッピングを再設定できます。そこから、別の既存の同期を使用するか、新しい同期を作成するかを選択します。

データスケールによっては、HyperAuto が新しいデータ同期を作成した場合、生成にかかる時間が大幅に長くなることがあります。これは、データ同期が Builder パイプライン生成などの HyperAuto プロセスの残りの部分が開始される前に、初期実行が必要だからです。

HyperAuto 入力設定既存の同期をマップ

データ変換(Pipeline Builder)

HyperAuto パイプライン内のデータ変換では、使いづらいソースデータをクリーンで豊富な出力に変換し、すぐに分析やアプリケーション構築に使用できるようにします。

HyperAuto パイプラインは、Foundry 内でのデータ変換の主要な方法である自動生成された Builder パイプライン によって駆動されます。

HyperAuto は、ソースタイプとユーザーの設定に基づいて、意見を持った変換ロジックを動的に生成します。ユーザーは、HyperAuto パイプライン概要ページから パイプラインを表示 を選択することで、この Builder パイプラインを表示できます。このパイプラインへの編集は、提案 を通じて HyperAuto の設定を変更することで行われます。

HyperAuto で利用可能な変換機能の種類は以下のとおりです。

  • クリーニング: ソースシステムは、間違ったデータ型、null / 空の値の処理が不十分、文字列値の空白が不要など、一般的な「クリーンさ」の問題を持ってデータをエクスポートすることがよくあります。HyperAuto は、これらの問題(およびその他)を解決するための意見を持った変換オプションを提供します。
  • リネーム: ソースのメタデータを使用して、HyperAuto は出力テーブルと列の名前を、人間が読めないスキーマではなく、説明的でわかりやすいものに変更できます。
  • 結合: ソースシステムは、関連情報(たとえば、メタデータ)を別のテーブルに格納することがよくあります。たとえば、「正規」データモデルに準拠しています。HyperAuto は、ソースのデータモデルを理解してこれらのテーブルを結合し、分析が容易でオントロジーの強力な基盤を提供する非正規化された豊富な出力データセットを提供します。
  • フィルタリング: 重複などの不要な行は、HyperAuto によって自動的にフィルター処理されます。たとえば、変更データキャプチャの入力を重複排除するために。

バッチ およびリアルタイムの ストリーミング パイプラインモードがサポートされており、詳細は 設定オプション を参照してください。

生成された Pipeline Builder グラフ

オントロジー

HyperAuto は、ソースのデータモデルを使用して、生成された出力データセットに基づいて オントロジー を動的に生成し、オブジェクト間の意味的なリンクを定義できます。

この設定を有効にすると、新しい(サポートされている)ソースから完全に定義されたオントロジーまで、手動で介入することなく数分で行くことができます。

この機能に興味がある場合は、Palantir の担当者にお問い合わせください。

リソース管理

HyperAuto パイプラインは、作成されたリソースを完全に制御するように設計されており、ユーザーは、システムへのアップグレードやパフォーマンスの向上、バグ修正などの利益を一貫して受け取ることができます。また、これらのパイプラインの設計により、すでに生成されたリソースに新しい変換ステップや入力を追加することが容易になります。

基本的なリソース(例えば、同期や Builder パイプライン)への編集は、HyperAuto アプリケーションを介して管理しなければならず、変更の競合を避ける必要があります。

必要に応じて、HyperAuto パイプラインリソースを削除すると、対応する Builder パイプラインから所有権が削除され、通常どおり Builder パイプラインへの直接編集が可能になります。