注: 以下の翻訳の正確性は検証されていません。AIPを利用して英語版の原文から機械的に翻訳されたものです。

コアコンセプト

このページでは、Data Connection 全体で使用されるコアコンセプトについて説明します。

ソース

ソースは、単一の接続を表し、ターゲットシステムを指定するために必要なすべての構成と、認証を成功させるために必要な資格情報を含みます。ソースは、Palantir プラットフォームとターゲットシステム間のネットワーキングに応じて、特定のランタイムを使用して構成する必要があります。ランタイムは、ソースで使用される機能が実行される場所も定義します。

ソースは、特定の コネクタソースタイプとも呼ばれる)に基づいて設定されます。Palantir プラットフォームには、組織全体で最も一般的なデータシステムをサポートするために設計された広範なコネクタの範囲が用意されています。選択したコネクタとランタイムに応じて、異なる機能が利用可能です。

専用のコネクタがないシステムの場合、コードベースの接続オプションを使用して、汎用コネクタまたはREST API ソースを使用できます。たとえば、外部トランスフォーム外部関数、およびコンピュートモジュールなどです。

資格情報

資格情報は、特定のシステムにアクセスするために必要な秘密の値です。つまり、資格情報は認証に使用されます。資格情報には、パスワード、トークン、API キー、その他の秘密の値が含まれます。Palantir プラットフォームでは、すべての資格情報が暗号化され、安全に保管されます。ランタイムによっては、秘密情報が Data Connection エージェントにローカルで保存される場合や、直接プラットフォームに保存される場合があります。

いくつかのソースは、OpenID Connectアウトバウンドアプリケーション、またはクラウドアイデンティティを使用する場合など、秘密情報を保存せずに認証することができます。

ランタイム

ソースはランタイムで構成する必要があります。ランタイムは、ネットワーキング構成と機能が実行される場所を定義します。

Palantir では、システムに接続するために 3 つの異なるランタイムを使用できます。一般的に、接続しようとしているシステムが Foundry インスタンスがホストされているネットワークからのインバウンド接続を受け入れることができる場合、ダイレクト接続ランタイムを使用する必要があります。これが不可能な場合、使用しているソースタイプがエージェントプロキシをサポートしている場合、これはエージェントベースのオプションとして推奨されます。他のランタイムが利用できない場合、エージェントワーカーの使用を検討してください。

すべてのランタイムがすべてのソースタイプで利用できるわけではありません。

ランタイムオプションネットワーキング機能の実行
ダイレクト接続 [推奨]ターゲットシステムは Palantir からの直接のインバウンドトラフィックを許可する必要があります。標準の Foundry インスタンスの場合、これは通常、Control Panel や Data Connection アプリケーションで表示可能な標準のイーグレス IP アドレスからのインバウンドトラフィックを許可することを意味します。機能は Foundry で実行されます。
エージェントプロキシインフラストラクチャにインストールされたエージェントは、ダイレクト接続を通じて到達できないシステムへのトラフィックをリバースプロキシします。機能は Foundry で実行されます。
エージェントワーカーインフラストラクチャにインストールされたエージェントは、ターゲットシステムと対話するジョブを実行し、Foundry からデータをプッシュまたはプルします。機能は顧客提供の Linux ホストで実行されます。

ダイレクト接続

ダイレクト接続により、ユーザーはエージェントを設定することなく、インターネット経由でアクセス可能なデータソースに接続できます。データソースがインターネット経由でアクセス可能な場合、これは推奨されるソース接続方法です。エージェントの設定と保守の運用負荷を回避し、高い稼働時間とパフォーマンスを提供します。ダイレクト接続の設定方法を学びます。

オンプレミスでホストされている Foundry インスタンスでダイレクト接続を使用する場合、ターゲットシステムは Foundry インスタンスが実行されているネットワークから到達可能である必要があります。そうでない場合は、エージェントベースのランタイムオプションのいずれかを使用する必要があります。

エージェント

エージェントは、ネットワーク内のホストで実行される Palantir が提供するソフトウェアです。エージェントはソースシステムに接続し、Foundry と通信することもできます。エージェントプロキシおよびエージェントワーカーランタイムを使用するには、エージェントが必要です。同じエージェントをエージェントプロキシまたはエージェントワーカーとして使用できます。これは、特定のソースでエージェントを使用する際に決定されます。

このチュートリアルに従って、エージェントの設定方法について詳しく学びます。

エージェントプロキシランタイム

エージェントプロキシランタイムは、インターネット経由でアクセスできないデータソースに接続するために使用されます。エージェントは反転ネットワークプロキシとして機能し、Foundry で発信されたネットワークトラフィックをエージェントが配置されているネットワークに転送し、トラフィックを Foundry に中継します。これにより、Foundry の機能はダイレクト接続を使用する場合とほぼ同じように動作しますが、Foundry の IP アドレスからユーザーのシステムにインバウンドネットワークトラフィックを許可する必要はありません。

高可用性を確保するために、複数のエージェントを重複しないメンテナンスウィンドウで構成して、エージェントプロキシを通じて到達可能なターゲットシステムへの接続をプロキシするためのアクティブなエージェントが常に存在するようにすることができます。エージェントプロキシランタイムの設定方法を学びます。

エージェントワーカーランタイム

エージェントワーカーランタイムは、インターネット経由でアクセスできないデータソースに接続するために使用されます。エージェントワーカーは、希望するコネクタがエージェントプロキシランタイムをサポートしていない場合にのみ使用する必要があります。エージェントワーカーランタイムは、ソース構成と資格情報を暗号化された形式でローカルに保存し、ソース機能をエージェント自体で実行する単一または複数のエージェントに関連付けられます。エージェントワーカーランタイムを使用してソースを設定する方法を学びます。

機能

ソースはさまざまな機能をサポートできます。各機能はソース接続を介して実行できる機能を表します。Foundry にデータを取り込む、Foundry からデータをプッシュする、Foundry 外に保存されたデータを仮想化する、他のシステムに対してインタラクティブなリクエストを行うなど、幅広い機能がサポートされています。

利用可能な機能の概要は、以下の表に記載されています。特定のコネクタでサポートされている機能の詳細については、そのコネクタのドキュメントページを参照してください。

機能説明
バッチ同期外部ソースからデータセットにデータを同期します。
ストリーミング同期外部メッセージキューからストリームにデータを同期します。
変更データキャプチャ (CDC) 同期データベースからCDC メタデータを含むストリームにデータを同期します。
メディア同期外部ソースからメディアセットにデータを同期します。
HyperAutoシステム全体を自動的に同期します。
ファイルエクスポートデータセットから外部システムにファイルとしてデータをプッシュします。
テーブルエクスポートデータセットから外部データベースにスキーマ付きでデータをプッシュします。
ストリーミングエクスポートストリームから外部メッセージキューにデータをプッシュします。
Webhook外部システムに対して構造化されたリクエストをインタラクティブに行います。
仮想テーブル外部データウェアハウスからデータを登録して仮想テーブルとして使用します。
仮想メディア外部システムから非構造化メディアをメディアセットとして登録します。
探索他の機能を使用する前に、外部システムのデータとスキーマをインタラクティブに探索します。
コードで使用ポイント&クリックで設定可能な機能に含まれていない機能を拡張またはカスタマイズするために、コードでソースを使用します。

追加の機能が開発中であり、特定のコネクタのドキュメントで機能カバレッジが定期的に更新されています。

特定のコネクタでサポートされている機能は、Data Connection アプリケーションの新しいソースページにも表示されます。コネクタ名や機能で検索することができます。以下の例では、「バーチャル」オプションをサポートするソースの検索結果を示しています。

新しいソースページのスクリーンショット。コネクタカードで利用可能な機能が「バーチャル」の検索結果に表示されています。

バッチ同期

バッチ同期は、外部システムからデータを読み取り、Foundry のデータセットに書き込みます。バッチ同期は、読み取るデータと Foundry で出力するデータセットを定義します。バッチ同期はデータを増分同期するように構成でき、対応するスキーマの有無にかかわらずデータを同期できます。同期の設定方法を学びます。

一般的に、バッチ同期には 2 つの主要なタイプがあります。

ストリーミング同期

ストリーミング同期は、低遅延データフィードを提供するシステムからデータをストリーミングする機能を提供します。データはストリーミングデータセットに配信されます。ストリーミング同期をサポートするシステムの例としては、KafkaAmazon Kinesis、およびGoogle Pub/Subがあります。

ストリーミング同期について詳しく学びます。

変更データキャプチャ同期

変更データキャプチャ (CDC) 同期は、ストリーミング同期と似ていますが、追加の変更ログメタデータがストリーミングデータセットに自動的に伝播されます。このタイプの同期は、低遅延レプリケーションをサポートするデータベースに通常使用されます。変更データキャプチャ同期について詳しく学びます。

メディア同期

メディア同期は、メディアデータをメディアセットにインポートする機能を提供します。メディアセットは、Foundry 全体でメディアデータを取り込み、トランスフォームし、消費するためのツールを提供します。PDF、画像、ビデオ、その他のメディアを扱う場合、データセットよりもメディアセットを使用することをお勧めします。メディア同期について詳しく学びます。

HyperAuto

HyperAutoは、SAP システムのスキーマを動的に検出し、同期、パイプライン、および Foundry 内の