注: 以下の翻訳の正確性は検証されていません。AIPを利用して英語版の原文から機械的に翻訳されたものです。
Foundry を Hadoop Distributed File System (HDFS) に接続し、HDFS から Foundry データセットにデータを読み取り、同期します。
機能 | ステータス |
---|---|
探索 | 🟢 一般提供中 |
バルクインポート | 🟢 一般提供中 |
コネクターは、任意のタイプのファイルを Foundry データセットに転送できます。ファイル形式は保持され、転送中または転送後にスキーマは適用されません。必要なスキーマは出力データセットに適用するか、データにアクセスするために下流のトランスフォームを記述してください。
転送可能なファイルのサイズに制限はありませんが、ネットワークの問題により大規模な転送が失敗することがあります。特に、実行に 2 日以上かかる直接のクラウド同期は中断されます。ネットワークの問題を避けるために、ファイルサイズを小さくし、同期の各実行で取り込むファイルの数を制限することをお勧めします。同期は定期的にスケジュールできます。
一般的には、エージェントベースのランタイムが HDFS ソースに接続するために必要です。ただし、クラスターがインターネット経由でアクセス可能な場合を除きます。
Foundry でのコネクターのセットアップについてさらに詳しく学びましょう。
より高速な RPC パフォーマンスのために、可能であれば HDFS スキーム ↗ を使用することをお勧めします。代わりに、WebHDFS ↗ は、HDFS の完全な FileSystem インターフェースをサポートする HTTP REST API です。いくつかの例を以下に示します。
必要なネットワークポートは、選択したスキームによって異なります。HDFS スキームの場合、これらのポートは通常、NameNode サーバーの 8020/9000 および DataNode の 1019、50010、50020 です。WebHDFS スキームの場合、必要なポートは通常 9820 です。
SSL 接続はサーバー証明書を検証します。通常、SSL 検証は証明書チェーンを介して行われます。デフォルトでは、エージェントおよび直接接続ランタイムの両方が、ほとんどの業界標準の証明書チェーンを信頼します。接続しているサーバーに自己署名証明書がある場合、または検証中に TLS インターセプションがある場合、コネクターは証明書を信頼する必要があります。Data Connection での証明書の使用についてさらに詳しく学びましょう。
HDFS コネクターには、以下の設定オプションがあります。
オプション | 必須? | 説明 |
---|---|---|
URL | はい | ルートデータディレクトリへの HDFS URL |
Extra properties | いいえ | Hadoop Configuration ↗ に渡されるプロパティマップを追加します。各エントリは 1 個のプロパティに対応する名前と値のペアであり、configurationResources を介してディスク上の設定を指定する必要を回避します。 |
HDFS コネクターには、以下の高度なオプションがあります。
オプション | 必須? | 説明 |
---|---|---|
User | いいえ | HDFS ユーザー(エージェントランタイムの場合、デフォルトは現在ログインしているユーザー)。 user パラメーターは Data Connection のグローバル Kerberos 設定を上書きします。Kerberos を使用している場合は、user パラメーターを空白のままにしてください。 |
File change timeout | いいえ | ファイルがアップロード対象としてみなされる前に一定期間(ISO-8601 ↗)変更されない必要があります。 可能であれば、より効率的な lastModifiedBefore プロセッサーを使用してください。 |
設定された HDFS インスタンスで利用可能なデータを対話的に探索するには、Explore
タブを訪問してください。New Sync
を選択して、HDFS から指定された Foundry データセットに定期的にデータを取り込みます。