データ統合ファイルシステムおよび Blob storesGoogle Cloud Storage

注: 以下の翻訳の正確性は検証されていません。AIPを利用して英語版の原文から機械的に翻訳されたものです。

Google Cloud Storage

Foundry を Google Cloud Storage に接続して、Foundry データセットとストレージバケット間でファイルを同期します。

対応する機能

機能ステータス
一括インポート🟢 一般的に利用可能
エクスポートタスク🟢 一般的に利用可能
探索🟢 一般的に利用可能
インクリメンタル🟢 一般的に利用可能

データモデル

コネクタは、任意のタイプのファイルを Foundry データセットに転送できます。ファイル形式は保持され、転送中または転送後にスキーマは適用されません。必要なスキーマを出力データセットに適用するか、または下流変換を書くことでデータにアクセスしてください。

パフォーマンスと制限

転送可能なファイルのサイズには制限はありません。しかし、ネットワークの問題により、大規模な転送が失敗することがあります。特に、2日以上実行がかかる直接のクラウド同期は中断されます。ネットワークの問題を避けるために、小さなファイルサイズを使用し、同期の各実行で取り込むファイルの数を制限することを推奨します。同期は定期的に実行するようにスケジュール設定できます。

セットアップ

  1. Data Connection アプリを開き、画面右上の + New Source を選択します。
  2. 利用可能なコネクタタイプから Google Cloud Storage を選択します。
  3. インターネット上の直接接続を使用するか、または中間エージェント経由で接続するかを選択します。
  4. 下記のセクションの情報を使用して、コネクタのセットアップを続行するための追加の設定プロンプトに従います。

Foundry でコネクタをセットアップする方法については、こちらを参照してください。

Google Cloud Storage の認証とセットアップを進めるには、Google Cloud IAM サービスアカウントが必要です。

認証

以下のロールがアクセスされるバケット上で必要です:

  • Storage Object Viewer: データを読み取る
  • Storage Object Creator: Google Cloud Storage へデータをエクスポート
  • Storage Object Admin: Foundry にインポートした後で Google Cloud Storage からファイルを削除。

必要なロールについては、Google Cloud のアクセス制御に関するドキュメンテーション (外部) を参照してください。

以下の2つの認証方法から選択します:

  • GCP インスタンスアカウント: インスタンスベースの認証の設定方法については、Google Cloud ドキュメンテーション (外部) を参照してください。

    • GCP インスタンス認証は、GCP 内の適切に設定されたインスタンス上で動作するエージェントを通じて動作するコネクターでのみ機能します。
  • サービスアカウントキーファイル: サービスアカウントキーファイル認証の設定方法については、Google Cloud ドキュメンテーション (外部) を参照してください。

ネットワーキング

Google Cloud Storage コネクタは、ポート 443 で以下のドメインへのネットワークアクセスが必要です:

  • storage.googleapis.com
  • oauth2.googleapis.com
  • accounts.google.com

設定オプション

Google Cloud Storage コネクタには以下の設定オプションが利用可能です:

オプション必須?説明
Project IdはいCloud Storage バケットを含むプロジェクトの ID。
Bucket nameはいデータを読み書きするバケットの名前。
資格情報 settingsはい上記の認証ガイダンスを使用して設定します。
Proxy settingsいいえGoogle Cloud Storage への接続中にプロキシを使用するには有効化します。

Google Cloud Storage からのデータ同期

Google Cloud Storage コネクタは、ファイルベースの同期インターフェースを使用します。ファイルベースの同期の設定についてのドキュメンテーションを参照してください。

Google Cloud Storage へのデータエクスポート

コネクタは、Foundry データセットからのファイルを Google Cloud Storage バケットの任意の場所にコピーできます。

データのエクスポートを開始するには、エクスポートタスクを設定する必要があります。エクスポートしたい Google Cloud Storage コネクタが含まれるプロジェクトフォルダーに移動します。コネクタ名を右クリックし、Create Data Connection Taskを選択します。

Data Connection ビューの左パネルで:

  1. Source 名が使用したいコネクタと一致していることを確認します。
  2. Input という名前で inputDataset を追加します。input dataset はエクスポートされる Foundry データセットです。
  3. Output という名前で outputDataset を追加します。output dataset はタスクを実行、スケジュール設定、監視するために使用されます。
  4. 最後に、テキストフィールドに YAML ブロックを追加して、タスク設定を定義します。

左側のパネルに表示されるコネクタと入力データセットのラベルは、YAML で定義された名前を反映していません。

エクスポートタスクの YAML を作成する際に以下のオプションを使用します:

オプション必須?説明
directoryPathはいファイルが書き込まれる Cloud Storage のディレクトリ。
excludePathsいいえレギュラーエクスプレッションのリスト; これらの表現に一致する名前のファイルはエクスポートされません。
uploadConfirmationいいえ値が exportedFiles の場合、出力データセットにはエクスポートされたファイルのリストが含まれます。
retriesPerFileいいえネットワークの障害が発生している場合、この数値を増やすことでエクスポートジョブが Cloud Storage へのアップロードをリトライし、ジョブ全体が失敗する前にこれを可能にします。
createTransactionFoldersいいえ有効にすると、データは指定した directoryPath 内のサブフォルダーに書き込まれます。各サブフォルダーは Foundry でのトランザクションがコミットされた時間に基づいており、エクスポートされた各トランザクションに対してユニークな名前があります。
threadsいいえファイルを並列にアップロードするために使用されるスレッドの数を設定します。この数値を増やすことで、より多くのリソースを使用します。エージェント上で実行されるエクスポートが、増加した並列化を処理できるだけのエージェント上のリソースを持っていることを確認してください。
incrementalTypeいいえデータセットがインクリメンタルに構築される場合、前回のエクスポート以降に発生したトランザクションのみをエクスポートするように incremental に設定します。

タスク設定の例:

Copied!
1 2 3 4 5 6 7 8 9 10 type: export-google-cloud-storage directoryPath: directory/to/export/to # エクスポート先のディレクトリパス excludePaths: - ^_.* # 除外するパス(アンダースコアで始まるパス) - ^spark/_.* # 除外するパス(spark/で始まりアンダースコアで続くパス) uploadConfirmation: exportedFiles # アップロード確認 incrementalType: incremental # インクリメンタルタイプ retriesPerFile: 0 # ファイルごとの再試行回数 createTransactionFolders: true # トランザクションフォルダの作成 threads: 0 # スレッド数

エクスポートタスクを設定した後、右上の角にある Save を選択してください。