データ接続と統合Available connectorsHDFS

注: 以下の翻訳の正確性は検証されていません。AIPを利用して英語版の原文から機械的に翻訳されたものです。

HDFS

Foundry を Hadoop Distributed File System (HDFS) に接続し、HDFS から Foundry データセットにデータを読み取り、同期します。

対応機能

機能ステータス
探索🟢 一般提供中
バルクインポート🟢 一般提供中

データモデル

コネクターは、任意のタイプのファイルを Foundry データセットに転送できます。ファイル形式は保持され、転送中または転送後にスキーマは適用されません。必要なスキーマは出力データセットに適用するか、データにアクセスするために下流のトランスフォームを記述してください。

パフォーマンスと制限事項

転送可能なファイルのサイズに制限はありませんが、ネットワークの問題により大規模な転送が失敗することがあります。特に、実行に 2 日以上かかる直接のクラウド同期は中断されます。ネットワークの問題を避けるために、ファイルサイズを小さくし、同期の各実行で取り込むファイルの数を制限することをお勧めします。同期は定期的にスケジュールできます。

一般的には、エージェントベースのランタイムが HDFS ソースに接続するために必要です。ただし、クラスターがインターネット経由でアクセス可能な場合を除きます。

セットアップ

  1. Data Connection アプリケーションを開き、画面右上の + New Source を選択します。
  2. 使用可能なコネクタータイプから HDFS を選択します。
  3. インターネット経由で直接接続するか、中間エージェントを介して接続するかを選択します。
  4. 以下のセクションの情報を使用して、コネクターのセットアップを続行するための追加設定プロンプトに従います。

Foundry でのコネクターのセットアップについてさらに詳しく学びましょう。

ネットワーキング

より高速な RPC パフォーマンスのために、可能であれば HDFS スキーム ↗ を使用することをお勧めします。代わりに、WebHDFS ↗ は、HDFS の完全な FileSystem インターフェースをサポートする HTTP REST API です。いくつかの例を以下に示します。

  • hdfs://myhost.example.com:1234/path/to/root/directory
  • webhdfs://example.com/path
  • swebhdfs://example.com/path

必要なネットワークポートは、選択したスキームによって異なります。HDFS スキームの場合、これらのポートは通常、NameNode サーバーの 8020/9000 および DataNode の 1019、50010、50020 です。WebHDFS スキームの場合、必要なポートは通常 9820 です。

証明書と秘密鍵

SSL 接続はサーバー証明書を検証します。通常、SSL 検証は証明書チェーンを介して行われます。デフォルトでは、エージェントおよび直接接続ランタイムの両方が、ほとんどの業界標準の証明書チェーンを信頼します。接続しているサーバーに自己署名証明書がある場合、または検証中に TLS インターセプションがある場合、コネクターは証明書を信頼する必要があります。Data Connection での証明書の使用についてさらに詳しく学びましょう

設定オプション

HDFS コネクターには、以下の設定オプションがあります。

オプション必須?説明
URLはいルートデータディレクトリへの HDFS URL
Extra propertiesいいえHadoop Configuration ↗ に渡されるプロパティマップを追加します。各エントリは 1 個のプロパティに対応する名前と値のペアであり、configurationResources を介してディスク上の設定を指定する必要を回避します。

高度なオプション

HDFS コネクターには、以下の高度なオプションがあります。

オプション必須?説明
UserいいえHDFS ユーザー(エージェントランタイムの場合、デフォルトは現在ログインしているユーザー)。
user パラメーターは Data Connection のグローバル Kerberos 設定を上書きします。Kerberos を使用している場合は、user パラメーターを空白のままにしてください。
File change timeoutいいえファイルがアップロード対象としてみなされる前に一定期間(ISO-8601 ↗)変更されない必要があります。
可能であれば、より効率的な lastModifiedBefore プロセッサーを使用してください。

HDFS からのデータ同期

設定された HDFS インスタンスで利用可能なデータを対話的に探索するには、Explore タブを訪問してください。New Sync を選択して、HDFS から指定された Foundry データセットに定期的にデータを取り込みます。