Warning

注: 以下の翻訳の正確性は検証されていません。AIPを利用して英語版の原文から機械的に翻訳されたものです。

初期セットアップの概要

このガイドでは、組織のデータを Foundry に接続するプロセスを説明します。

はじめに、組織のデータを Foundry に接続する最初のステップは、基本的にネットワーキングの概念であることを認識することが重要です。 初期セットアップは、ネットワークエンジニアリングに精通し、組織のネットワークトポロジーや設定(ファイアウォールルールなど)を把握している人が最適です。

概念的な概要

Foundry にデータを接続するには、以下の3つのコンポーネントがこの順序でインストールまたは設定されている必要があります。

  1. 接続: データソースにアクセスするために必要です。
    • エージェント: ユーザーのシステムで実行されているソフトウェアに接続します。プライベートネットワークやオンプレミスのデータソースにアクセスするために必要です。
    • ダイレクト接続: インターネット経由でデータソースに接続します。公共ネットワーク経由で接続する場合に推奨されます。
  2. ソース / コネクタ: Foundry 外部のデータにアクセスするために使用されます。
  3. 同期: Foundry にデータを取り込むか、エクスポートするかします。

エージェント は、組織のネットワーク内で実行される Palantir のソフトウェアです。 エージェントは、組織のデータソースと Foundry インスタンスの間の安全な中継者として機能します。 プライベートネットワークやオンプレミスシステムで実行されているソースにアクセスするには、エージェント接続が必要です。 1つの実行中のエージェントは、複数のソースと同期をサポートできます。

エージェントアーキテクチャ について詳しく学びましょう。

ダイレクト接続 は、インターネット経由でアクセス可能なデータソースへの接続です。 たとえば、REST API、SFTP サーバー、または Azure ストレージアカウントです。 エージェントの設定を避けて、優れたアップタイムとパフォーマンスを維持するために、ダイレクト接続を設定できます。 ダイレクト接続には、エンロールメントと接続資格情報に対するネットワークエグレスポリシーが必要です。

ソース またはコネクタは、Foundry に接続する外部データシステムです。 たとえば、ソースは、Postgres データベース、S3 バケット、Linux サーバー上のファイルシステム、SAP インスタンス、またはインターネット上の REST API などです。 設定済みのソースは、Foundry への同期を確立するために必要であり、データはソースからデータセットに同期される必要があります。

同期 は、ソースから特定のデータを読み取り、Foundry に取り込みます。 たとえば、複数のテーブルを含む PostgreSQL データベースソースがある場合、特定のテーブルを Foundry に取り込むように同期を設定することができます。 同期が正常に実行されると、Foundry の結果は、データパイプライン、モデル開発、および分析ツールのすべてに使用できる データセット になります。

役割とワークフロー

ほとんどの Foundry ユーザーは、自分で新しいエージェントを設定する必要はありません。 エージェントのセットアップには、IT 対応のスキルセットが必要ですが、同じエージェントは複数のソースと同期をサポートするために再利用できます。 一部の組織は、Foundry 展開の最初の週に設定されたエージェントで長期間運用できます。 新しいエージェントは、既存のエージェントがアクセスできないデータ(ネットワークセグメンテーションやデータスケールなどが原因)にアクセスするため、または高可用性 を許可する追加のエージェントを設定するためにのみ必要です。

以下の表は、データへの接続に必要なリソースの設定頻度と、その維持に必要なスキルセットをまとめたものです。

リソース設定の頻度典型的なユーザーの役割必要な知識
エージェントまれIT / ネットワークエンジニアネットワークとファイアウォールポリシー; Linux VM; SSH
ソースたまにIT / ネットワークエンジニア; データエンジニアネットワークアクセスのデバッグ; 資格情報の管理
同期頻繁データエンジニア; データサイエンティストSQL クエリの記述; ファイルの管理

高可用性

冗長なハードウェアを設定して、高可用性(HA)アーキテクチャを確立することをお勧めします。 高可用性は、耐障害性を向上させ、営業時間中にダウンタイムのないメンテナンスが可能になります。

Foundry はソースレベルで HA を提供し、ソースが複数のエージェントに割り当てられている場合、Foundry は健全なエージェントの 1 つに取り込みをディスパッチします。 ソース作成の開始時に高可用性セットアップでエージェントを設定することを強くお勧めします。作成済みのソースに追加のエージェントを追加すると、そのソースの資格情報を再入力する必要があります。

高可用性の設定時に以下のベストプラクティスが推奨されます。

  • 常に、同様のハードウェアでエージェントをペアでインストールします。
  • ペア内の各エージェントに類似した名前を付けます。たとえば、agent-1agent-2 など。
  • すべてのソースにペア内の両方のエージェントを割り当てます。
  • ペア内の両方のエージェントで重複しないアップグレードウィンドウを設定します。 アップグレードウィンドウは、営業日中で十分な浸透時間を提供するようにする必要があります。 これにより、更新に関する予期しない問題が 1 つのエージェントに制限され、運用者や管理者によって検出できるようになります。

次のステップ

インターネット経由でデータソースにアクセスする直接接続を使用して、公開 REST API や S3 バケットなどのデータソースにアクセスする場合は、ダイレクト接続の設定 から始めます。

組織のネットワーク内にあるデータソースに接続するには、エージェントの設定 から始めます。