初期セットアップの概要

このガイドでは、組織のデータを Foundry に接続するプロセスを説明します。

はじめに、組織のデータを Foundry に接続する最初のステップは、基本的にネットワーキングの概念であることを認識することが重要です。初期セットアップは、ネットワークエンジニアリングに精通し、組織のネットワークトポロジーや設定（ファイアウォールルールなど）を把握している人が最適です。

概念的な概要

Foundry にデータを接続するには、以下の3つのコンポーネントがこの順序でインストールまたは設定されている必要があります。

接続: データソースにアクセスするために必要です。
- エージェント: ユーザーのシステムで実行されているソフトウェアに接続します。プライベートネットワークやオンプレミスのデータソースにアクセスするために必要です。
- ダイレクト接続: インターネット経由でデータソースに接続します。公共ネットワーク経由で接続する場合に推奨されます。
ソース / コネクタ: Foundry 外部のデータにアクセスするために使用されます。
同期: Foundry にデータを取り込むか、エクスポートするかします。

エージェントは、組織のネットワーク内で実行される Palantir のソフトウェアです。エージェントは、組織のデータソースと Foundry インスタンスの間の安全な中継者として機能します。プライベートネットワークやオンプレミスシステムで実行されているソースにアクセスするには、エージェント接続が必要です。 1つの実行中のエージェントは、複数のソースと同期をサポートできます。

エージェントアーキテクチャについて詳しく学びましょう。

ダイレクト接続は、インターネット経由でアクセス可能なデータソースへの接続です。たとえば、REST API、SFTP サーバー、または Azure ストレージアカウントです。エージェントの設定を避けて、優れたアップタイムとパフォーマンスを維持するために、ダイレクト接続を設定できます。ダイレクト接続には、エンロールメントと接続資格情報に対するネットワークエグレスポリシーが必要です。

ソースまたはコネクタは、Foundry に接続する外部データシステムです。たとえば、ソースは、Postgres データベース、S3 バケット、Linux サーバー上のファイルシステム、SAP インスタンス、またはインターネット上の REST API などです。設定済みのソースは、Foundry への同期を確立するために必要であり、データはソースからデータセットに同期される必要があります。

同期は、ソースから特定のデータを読み取り、Foundry に取り込みます。たとえば、複数のテーブルを含む PostgreSQL データベースソースがある場合、特定のテーブルを Foundry に取り込むように同期を設定することができます。同期が正常に実行されると、Foundry の結果は、データパイプライン、モデル開発、および分析ツールのすべてに使用できるデータセットになります。

役割とワークフロー

ほとんどの Foundry ユーザーは、自分で新しいエージェントを設定する必要はありません。エージェントのセットアップには、IT 対応のスキルセットが必要ですが、同じエージェントは複数のソースと同期をサポートするために再利用できます。一部の組織は、Foundry 展開の最初の週に設定されたエージェントで長期間運用できます。新しいエージェントは、既存のエージェントがアクセスできないデータ（ネットワークセグメンテーションやデータスケールなどが原因）にアクセスするため、または高可用性を許可する追加のエージェントを設定するためにのみ必要です。

以下の表は、データへの接続に必要なリソースの設定頻度と、その維持に必要なスキルセットをまとめたものです。

リソース	設定の頻度	典型的なユーザーの役割	必要な知識
エージェント	まれ	IT / ネットワークエンジニア	ネットワークとファイアウォールポリシー; Linux VM; SSH
ソース	たまに	IT / ネットワークエンジニア; データエンジニア	ネットワークアクセスのデバッグ; 資格情報の管理
同期	頻繁	データエンジニア; データサイエンティスト	SQL クエリの記述; ファイルの管理

高可用性

冗長なハードウェアを設定して、高可用性（HA）アーキテクチャを確立することをお勧めします。高可用性は、耐障害性を向上させ、営業時間中にダウンタイムのないメンテナンスが可能になります。

Foundry はソースレベルで HA を提供し、ソースが複数のエージェントに割り当てられている場合、Foundry は健全なエージェントの 1 つに取り込みをディスパッチします。ソース作成の開始時に高可用性セットアップでエージェントを設定することを強くお勧めします。作成済みのソースに追加のエージェントを追加すると、そのソースの資格情報を再入力する必要があります。

高可用性の設定時に以下のベストプラクティスが推奨されます。

常に、同様のハードウェアでエージェントをペアでインストールします。
ペア内の各エージェントに類似した名前を付けます。たとえば、agent-1 と agent-2 など。
すべてのソースにペア内の両方のエージェントを割り当てます。
ペア内の両方のエージェントで重複しないアップグレードウィンドウを設定します。アップグレードウィンドウは、営業日中で十分な浸透時間を提供するようにする必要があります。これにより、更新に関する予期しない問題が 1 つのエージェントに制限され、運用者や管理者によって検出できるようになります。

次のステップ

インターネット経由でデータソースにアクセスする直接接続を使用して、公開 REST API や S3 バケットなどのデータソースにアクセスする場合は、ダイレクト接続の設定から始めます。

組織のネットワーク内にあるデータソースに接続するには、エージェントの設定から始めます。

←

PREVIOUSアーキテクチャ

NEXTData Connection FAQ

→