注: 以下の翻訳の正確性は検証されていません。AIPを利用して英語版の原文から機械的に翻訳されたものです。
このガイドでは、組織のデータを Foundry に接続するプロセスを説明します。
はじめに、組織のデータを Foundry に接続する最初のステップは、基本的にネットワーキングの概念であることを認識することが重要です。 初期セットアップは、ネットワークエンジニアリングに精通し、組織のネットワークトポロジーや設定(ファイアウォールルールなど)を把握している人が最適です。
Foundry にデータを接続するには、以下の3つのコンポーネントがこの順序でインストールまたは設定されている必要があります。
エージェント は、組織のネットワーク内で実行される Palantir のソフトウェアです。 エージェントは、組織のデータソースと Foundry インスタンスの間の安全な中継者として機能します。 プライベートネットワークやオンプレミスシステムで実行されているソースにアクセスするには、エージェント接続が必要です。 1つの実行中のエージェントは、複数のソースと同期をサポートできます。
エージェントアーキテクチャ について詳しく学びましょう。
ダイレクト接続 は、インターネット経由でアクセス可能なデータソースへの接続です。 たとえば、REST API、SFTP サーバー、または Azure ストレージアカウントです。 エージェントの設定を避けて、優れたアップタイムとパフォーマンスを維持するために、ダイレクト接続を設定できます。 ダイレクト接続には、エンロールメントと接続資格情報に対するネットワークエグレスポリシーが必要です。
ソース またはコネクタは、Foundry に接続する外部データシステムです。 たとえば、ソースは、Postgres データベース、S3 バケット、Linux サーバー上のファイルシステム、SAP インスタンス、またはインターネット上の REST API などです。 設定済みのソースは、Foundry への同期を確立するために必要であり、データはソースからデータセットに同期される必要があります。
同期 は、ソースから特定のデータを読み取り、Foundry に取り込みます。 たとえば、複数のテーブルを含む PostgreSQL データベースソースがある場合、特定のテーブルを Foundry に取り込むように同期を設定することができます。 同期が正常に実行されると、Foundry の結果は、データパイプライン、モデル開発、および分析ツールのすべてに使用できる データセット になります。
ほとんどの Foundry ユーザーは、自分で新しいエージェントを設定する必要はありません。 エージェントのセットアップには、IT 対応のスキルセットが必要ですが、同じエージェントは複数のソースと同期をサポートするために再利用できます。 一部の組織は、Foundry 展開の最初の週に設定されたエージェントで長期間運用できます。 新しいエージェントは、既存のエージェントがアクセスできないデータ(ネットワークセグメンテーションやデータスケールなどが原因)にアクセスするため、または高可用性 を許可する追加のエージェントを設定するためにのみ必要です。
以下の表は、データへの接続に必要なリソースの設定頻度と、その維持に必要なスキルセットをまとめたものです。
リソース | 設定の頻度 | 典型的なユーザーの役割 | 必要な知識 |
---|---|---|---|
エージェント | まれ | IT / ネットワークエンジニア | ネットワークとファイアウォールポリシー; Linux VM; SSH |
ソース | たまに | IT / ネットワークエンジニア; データエンジニア | ネットワークアクセスのデバッグ; 資格情報の管理 |
同期 | 頻繁 | データエンジニア; データサイエンティスト | SQL クエリの記述; ファイルの管理 |
冗長なハードウェアを設定して、高可用性(HA)アーキテクチャを確立することをお勧めします。 高可用性は、耐障害性を向上させ、営業時間中にダウンタイムのないメンテナンスが可能になります。
Foundry はソースレベルで HA を提供し、ソースが複数のエージェントに割り当てられている場合、Foundry は健全なエージェントの 1 つに取り込みをディスパッチします。 ソース作成の開始時に高可用性セットアップでエージェントを設定することを強くお勧めします。作成済みのソースに追加のエージェントを追加すると、そのソースの資格情報を再入力する必要があります。
高可用性の設定時に以下のベストプラクティスが推奨されます。
agent-1
と agent-2
など。インターネット経由でデータソースにアクセスする直接接続を使用して、公開 REST API や S3 バケットなどのデータソースにアクセスする場合は、ダイレクト接続の設定 から始めます。
組織のネットワーク内にあるデータソースに接続するには、エージェントの設定 から始めます。