注: 以下の翻訳の正確性は検証されていません。AIPを利用して英語版の原文から機械的に翻訳されたものです。

初期設定の概要

このガイドでは、組織のデータを Foundry に接続するプロセスを説明します。

開始する前に、組織のデータを Foundry に接続するための最初のステップは、根本的にはネットワーキングの概念であることを認識することが重要です。初期設定は、ネットワークエンジニアリングに精通しており、組織のネットワークトポロジーや設定(ファイアウォールのルールなど)を理解している人が行うのがベストです。

概念的な概要

Foundry にデータを接続するには、以下の 3 つのコンポーネントがこの順序でインストールまたは設定されている必要があります。

  1. 接続: データソースにアクセスするために必要です。
    • エージェント: システム上で稼働しているソフトウェアに接続します。プライベートネットワークやオンプレミスのデータソースにアクセスするために必要です。
    • 直接接続: インターネット経由でデータソースに接続します。公共のネットワーク経由で接続する場合に推奨されます。
  2. ソース / コネクタ: Foundry 外部のデータにアクセスするために使用されます。
  3. 同期: Foundry にデータを取り込むか、Foundry からデータをエクスポートします。

エージェントは、組織のネットワーク内で稼働する Palantir のソフトウェアの一部です。エージェントは、組織のデータソースと Foundry インスタンスの間の安全な仲介者として機能します。エージェント接続は、プライベートネットワークまたはオンプレミスシステム上で稼働しているソースにアクセスするために必要です。稼働しているエージェント 1 つが複数のソースと同期をサポートできます。

エージェントアーキテクチャについて詳しく知りたい方はこちら。

直接接続は、インターネット経由でアクセス可能なデータソースへの接続です。例えば、REST API、SFTP サーバー、または Azure ストレージアカウントなどです。エージェントの設定を省略しながらも優れたアップタイムとパフォーマンスを維持するために、直接接続を設定できます。直接接続には、エンロールメントと接続資格情報のためのネットワークエグレスポリシーが必要です。

ソース、またはコネクターは、Foundry に接続する外部のデータシステムの任意のタイプです。例えば、ソースは Postgres データベース、S3 バケット、Linux サーバーのファイルシステム、SAP インスタンス、またはインターネット上の REST API などが考えられます。設定されたソースは Foundry への任意の同期を確立するために必要であり、データはソースからデータセットに同期される必要があります。

同期はソースから特定のデータを読み込み、それを Foundry に取り込みます。例えば、複数のテーブルを含む PostgreSQL データベースソースがある場合、特定のテーブルを Foundry に取り込むための同期を設定するかもしれません。同期が成功したら、Foundry での結果は、Foundry のすべてのデータパイプライン、モデル開発、分析ツールで使用できるデータセットになります。

役割とワークフロー

ほとんどの Foundry ユーザーは自分で新しいエージェントを設定する必要はありません。エージェントの設定には IT に特化したスキルセットが必要で、同じエージェントは複数のソースと同期のサポートに再利用できます。一部の組織は、Foundry のデプロイメントの最初の週に設定されたエージェントで長期間運用することができます。新しいエージェントは、既存のエージェントがアクセスできないデータにアクセスするため(ネットワークのセグメンテーションやデータスケールのためなど)、または高可用性を許可するための追加のエージェントを設定するためにのみ必要です。

下記の表は、データへの接続に必要なリソースの維持に必要な設定頻度とスキルセットをまとめています:

リソース設定の頻度典型的なユーザーの役割必要な知識
エージェントIT / ネットワークエンジニアネットワークおよびファイアウォールポリシー; Linux VMs; SSH
ソースたまにIT / ネットワークエンジニア; データエンジニアネットワークアクセスのデバッグ; 資格情報の管理
同期頻繁データエンジニア; データサイエンティストSQL クエリの作成; ファイルの管理

高可用性

我々は、高可用性(HA)アーキテクチャを確立するための冗長ハードウェアの設定を推奨します。高可用性はレジリエンスを向上させ、稼働時間中にメンテナンスを行うことなくダウンタイムを許可します。

Foundry はソースレベルで HA を提供します。つまり、ソースが複数のエージェントに割り当てられている場合、Foundry は健康なエージェントの一つに取り込みをディスパッチします。我々は強く、ソースの作成の開始時に高可用性設定でエージェントを設定することを推奨します。作成済みのソースに追加のエージェントを追加すると、そのソースの資格情報を再入力する必要があります。

高可用性を設定する際には、以下のベストプラクティスを推奨します:

  • 常にペアでエージェントをインストールし、同様のハードウェア上に配置します。
  • ペア内の各エージェントに似た名前を付けます。例えば、agent-1agent-2 などです。
  • 系統的にペア内の両方のエージェントをすべてのソースに割り当てます。
  • ペア内の両方のエージェントで重複しないアップグレードウィンドウを設定します。アップグレードウィンドウは、営業日中で、十分な浸透時間を提供するべきです。これにより、アップデートに関連する予期しない問題が単一のエージェントに限定され、運用者または管理者によって検出できることを保証します。

次のステップ

公開 REST API や S3 バケットなど、インターネット経由でデータソースにアクセスするために直接接続を使用する場合は、直接接続の設定から始めてください。

組織のネットワーク内に存在するデータソースに接続する場合は、エージェントの設定から始めてください。