注: 以下の翻訳の正確性は検証されていません。AIPを利用して英語版の原文から機械的に翻訳されたものです。
Foundry を Hadoop Distributed File System(HDFS)に接続して、HDFS から Foundry データセットにデータを読み込み、同期します。
機能 | ステータス |
---|---|
一括インポート | 🟢 一般的に利用可能 |
探索 | 🟢 一般的に利用可能 |
このコネクタは、任意の種類のファイルを Foundry データセットに転送することができます。ファイル形式は保持され、転送中または転送後にスキーマは適用されません。必要なスキーマを出力データセットに適用するか、または下流変換を書くことでデータにアクセスします。
転送可能なファイルのサイズに制限はありません。ただし、ネットワークの問題により、大規模な転送が失敗することがあります。特に、2日以上かかる直接のクラウド同期は中断されます。ネットワークの問題を避けるために、小さなファイルサイズを使用し、同期の各実行で取り込むファイルの数を制限することをお勧めします。同期はスケジュールして頻繁に実行することができます。
一般的に、エージェントベースのランタイムが必要となります。これは、クラスターがインターネット経由でアクセス可能でない場合に、HDFS ソースに接続するためです。
Foundry でコネクタをセットアップする方法については、こちらをご覧ください。
RPC パフォーマンスが速いため、利用可能な場合は HDFS スキーム (外部) の使用をお勧めします。また、WebHDFS (外部) は、HDFS の完全な FileSystem インターフェースをサポートする HTTP REST API です。一部の例を以下に示します:
必要なネットワークポートは、選択したスキームにより異なります。HDFS スキームの場合、これらのポートは通常、NameNode サーバー上の 8020/9000 と、DataNode 上の 1019、50010、50020 です。WebHDFS スキームの場合、必要なポートは通常 9820 です。
SSL 接続では、サーバ証明書を検証します。通常、SSL 検証は証明書チェーンを通じて行われます。デフォルトでは、エージェントおよび直接接続のランタイムは、ほとんどの業界標準の証明書チェーンを信頼します。接続先のサーバーが自己署名証明書を持っている場合、または検証中に TLS インターセプトがある場合、コネクタは証明書を信頼する必要があります。Data Connection での証明書の使用について詳しくはこちらをご覧ください。
HDFS コネクタには以下の設定オプションがあります:
オプション | 必須? | 説明 |
---|---|---|
URL | はい | ルートデータディレクトリへの HDFS URL |
Extra properties | いいえ | Hadoop Configuration (外部) に渡されるプロパティマップを追加します。各エントリは、単一のプロパティに対応する名前と値のペアで、configurationResources 経由でディスク上の設定を指定する必要を排除します。 |
HDFS コネクタには以下の上級者向けオプションがあります:
オプション | 必須? | 説明 |
---|---|---|
User | いいえ | HDFS ユーザー(エージェントランタイムの場合は現在ログインしているユーザーにデフォルト設定されます)。user パラメーターは、Data Connection のグローバルな Kerberos 設定をオーバーライドします。Kerberos を使用している場合は、user パラメーターを空白にしてください。 |
File change timeout | いいえ | ファイルがアップロード対象と考えられる前に一定の状態を保つ必要がある時間(ISO-8601 (外部) 形式)。 可能な場合は、より効率的な lastModifiedBefore プロセッサーを使用してください。 |
設定した HDFS インスタンスで利用可能なデータを対話的に探索するには、Explore
タブを訪れます。New Sync
を選択して、定期的に HDFS から Foundry の指定したデータセットにデータを引き出します。