注: 以下の翻訳の正確性は検証されていません。AIPを利用して英語版の原文から機械的に翻訳されたものです。
このガイドでは、組織のデータを Foundry に接続するプロセスを説明します。
開始する前に、組織のデータを Foundry に接続するための最初のステップは、根本的にはネットワーキングの概念であることを認識することが重要です。初期設定は、ネットワークエンジニアリングに精通しており、組織のネットワークトポロジーや設定(ファイアウォールのルールなど)を理解している人が行うのがベストです。
Foundry にデータを接続するには、以下の 3 つのコンポーネントがこの順序でインストールまたは設定されている必要があります。
エージェントは、組織のネットワーク内で稼働する Palantir のソフトウェアの一部です。エージェントは、組織のデータソースと Foundry インスタンスの間の安全な仲介者として機能します。エージェント接続は、プライベートネットワークまたはオンプレミスシステム上で稼働しているソースにアクセスするために必要です。稼働しているエージェント 1 つが複数のソースと同期をサポートできます。
エージェントアーキテクチャについて詳しく知りたい方はこちら。
直接接続は、インターネット経由でアクセス可能なデータソースへの接続です。例えば、REST API、SFTP サーバー、または Azure ストレージアカウントなどです。エージェントの設定を省略しながらも優れたアップタイムとパフォーマンスを維持するために、直接接続を設定できます。直接接続には、エンロールメントと接続資格情報のためのネットワークエグレスポリシーが必要です。
ソース、またはコネクターは、Foundry に接続する外部のデータシステムの任意のタイプです。例えば、ソースは Postgres データベース、S3 バケット、Linux サーバーのファイルシステム、SAP インスタンス、またはインターネット上の REST API などが考えられます。設定されたソースは Foundry への任意の同期を確立するために必要であり、データはソースからデータセットに同期される必要があります。
同期はソースから特定のデータを読み込み、それを Foundry に取り込みます。例えば、複数のテーブルを含む PostgreSQL データベースソースがある場合、特定のテーブルを Foundry に取り込むための同期を設定するかもしれません。同期が成功したら、Foundry での結果は、Foundry のすべてのデータパイプライン、モデル開発、分析ツールで使用できるデータセットになります。
ほとんどの Foundry ユーザーは自分で新しいエージェントを設定する必要はありません。エージェントの設定には IT に特化したスキルセットが必要で、同じエージェントは複数のソースと同期のサポートに再利用できます。一部の組織は、Foundry のデプロイメントの最初の週に設定されたエージェントで長期間運用することができます。新しいエージェントは、既存のエージェントがアクセスできないデータにアクセスするため(ネットワークのセグメンテーションやデータスケールのためなど)、または高可用性を許可するための追加のエージェントを設定するためにのみ必要です。
下記の表は、データへの接続に必要なリソースの維持に必要な設定頻度とスキルセットをまとめています:
リソース | 設定の頻度 | 典型的なユーザーの役割 | 必要な知識 |
---|---|---|---|
エージェント | 稀 | IT / ネットワークエンジニア | ネットワークおよびファイアウォールポリシー; Linux VMs; SSH |
ソース | たまに | IT / ネットワークエンジニア; データエンジニア | ネットワークアクセスのデバッグ; 資格情報の管理 |
同期 | 頻繁 | データエンジニア; データサイエンティスト | SQL クエリの作成; ファイルの管理 |
我々は、高可用性(HA)アーキテクチャを確立するための冗長ハードウェアの設定を推奨します。高可用性はレジリエンスを向上させ、稼働時間中にメンテナンスを行うことなくダウンタイムを許可します。
Foundry はソースレベルで HA を提供します。つまり、ソースが複数のエージェントに割り当てられている場合、Foundry は健康なエージェントの一つに取り込みをディスパッチします。我々は強く、ソースの作成の開始時に高可用性設定でエージェントを設定することを推奨します。作成済みのソースに追加のエージェントを追加すると、そのソースの資格情報を再入力する必要があります。
高可用性を設定する際には、以下のベストプラクティスを推奨します:
agent-1
と agent-2
などです。公開 REST API や S3 バケットなど、インターネット経由でデータソースにアクセスするために直接接続を使用する場合は、直接接続の設定から始めてください。
組織のネットワーク内に存在するデータソースに接続する場合は、エージェントの設定から始めてください。