ドキュメントの検索
karat

+

K

APIリファレンス ↗
データ統合ファイルシステムおよび Blob storesHDFS
Feedback

注: 以下の翻訳の正確性は検証されていません。AIPを利用して英語版の原文から機械的に翻訳されたものです。

HDFS

Foundry を Hadoop Distributed File System(HDFS)に接続して、HDFS から Foundry データセットにデータを読み込み、同期します。

対応機能

機能ステータス
一括インポート🟢 一般的に利用可能
探索🟢 一般的に利用可能

データモデル

このコネクタは、任意の種類のファイルを Foundry データセットに転送することができます。ファイル形式は保持され、転送中または転送後にスキーマは適用されません。必要なスキーマを出力データセットに適用するか、または下流変換を書くことでデータにアクセスします。

パフォーマンスと制限

転送可能なファイルのサイズに制限はありません。ただし、ネットワークの問題により、大規模な転送が失敗することがあります。特に、2日以上かかる直接のクラウド同期は中断されます。ネットワークの問題を避けるために、小さなファイルサイズを使用し、同期の各実行で取り込むファイルの数を制限することをお勧めします。同期はスケジュールして頻繁に実行することができます。

一般的に、エージェントベースのランタイムが必要となります。これは、クラスターがインターネット経由でアクセス可能でない場合に、HDFS ソースに接続するためです。

セットアップ

  1. Data Connection アプリケーションを開き、画面の右上隅にある + 新規ソース を選択します。
  2. 利用可能なコネクタタイプから HDFS を選択します。
  3. インターネット経由で 直接接続 を使用するか、または 中間エージェント経由で接続 を選択します。
  4. 以下のセクションにある情報を使用して、コネクタのセットアップを続けるための追加の設定プロンプトに従います。

Foundry でコネクタをセットアップする方法については、こちらをご覧ください。

ネットワーキング

RPC パフォーマンスが速いため、利用可能な場合は HDFS スキーム (外部) の使用をお勧めします。また、WebHDFS (外部) は、HDFS の完全な FileSystem インターフェースをサポートする HTTP REST API です。一部の例を以下に示します:

  • hdfs://myhost.example.com:1234/path/to/root/directory
  • webhdfs://example.com/path
  • swebhdfs://example.com/path

必要なネットワークポートは、選択したスキームにより異なります。HDFS スキームの場合、これらのポートは通常、NameNode サーバー上の 8020/9000 と、DataNode 上の 1019、50010、50020 です。WebHDFS スキームの場合、必要なポートは通常 9820 です。

証明書と秘密鍵

SSL 接続では、サーバ証明書を検証します。通常、SSL 検証は証明書チェーンを通じて行われます。デフォルトでは、エージェントおよび直接接続のランタイムは、ほとんどの業界標準の証明書チェーンを信頼します。接続先のサーバーが自己署名証明書を持っている場合、または検証中に TLS インターセプトがある場合、コネクタは証明書を信頼する必要があります。Data Connection での証明書の使用について詳しくはこちらをご覧ください。

設定オプション

HDFS コネクタには以下の設定オプションがあります:

オプション必須?説明
URLはいルートデータディレクトリへの HDFS URL
Extra propertiesいいえHadoop Configuration (外部) に渡されるプロパティマップを追加します。各エントリは、単一のプロパティに対応する名前と値のペアで、configurationResources 経由でディスク上の設定を指定する必要を排除します。

上級者向けオプション

HDFS コネクタには以下の上級者向けオプションがあります:

オプション必須?説明
UserいいえHDFS ユーザー(エージェントランタイムの場合は現在ログインしているユーザーにデフォルト設定されます)。
user パラメーターは、Data Connection のグローバルな Kerberos 設定をオーバーライドします。Kerberos を使用している場合は、user パラメーターを空白にしてください。
File change timeoutいいえファイルがアップロード対象と考えられる前に一定の状態を保つ必要がある時間(ISO-8601 (外部) 形式)。
可能な場合は、より効率的な lastModifiedBefore プロセッサーを使用してください。

HDFS からデータを同期

設定した HDFS インスタンスで利用可能なデータを対話的に探索するには、Explore タブを訪れます。New Sync を選択して、定期的に HDFS から Foundry の指定したデータセットにデータを引き出します。