注: 以下の翻訳の正確性は検証されていません。AIPを利用して英語版の原文から機械的に翻訳されたものです。
Foundry を Google Cloud Storage に接続して、Foundry データセットとストレージバケット間でファイルを同期します。
機能 | ステータス |
---|---|
一括インポート | 🟢 一般的に利用可能 |
エクスポートタスク | 🟢 一般的に利用可能 |
探索 | 🟢 一般的に利用可能 |
インクリメンタル | 🟢 一般的に利用可能 |
コネクタは、任意のタイプのファイルを Foundry データセットに転送できます。ファイル形式は保持され、転送中または転送後にスキーマは適用されません。必要なスキーマを出力データセットに適用するか、または下流変換を書くことでデータにアクセスしてください。
転送可能なファイルのサイズには制限はありません。しかし、ネットワークの問題により、大規模な転送が失敗することがあります。特に、2日以上実行がかかる直接のクラウド同期は中断されます。ネットワークの問題を避けるために、小さなファイルサイズを使用し、同期の各実行で取り込むファイルの数を制限することを推奨します。同期は定期的に実行するようにスケジュール設定できます。
Foundry でコネクタをセットアップする方法については、こちらを参照してください。
Google Cloud Storage の認証とセットアップを進めるには、Google Cloud IAM サービスアカウントが必要です。
以下のロールがアクセスされるバケット上で必要です:
Storage Object Viewer
: データを読み取るStorage Object Creator
: Google Cloud Storage へデータをエクスポートStorage Object Admin
: Foundry にインポートした後で Google Cloud Storage からファイルを削除。必要なロールについては、Google Cloud のアクセス制御に関するドキュメンテーション (外部) を参照してください。
以下の2つの認証方法から選択します:
GCP インスタンスアカウント: インスタンスベースの認証の設定方法については、Google Cloud ドキュメンテーション (外部) を参照してください。
サービスアカウントキーファイル: サービスアカウントキーファイル認証の設定方法については、Google Cloud ドキュメンテーション (外部) を参照してください。
Google Cloud Storage コネクタは、ポート 443 で以下のドメインへのネットワークアクセスが必要です:
storage.googleapis.com
oauth2.googleapis.com
accounts.google.com
Google Cloud Storage コネクタには以下の設定オプションが利用可能です:
オプション | 必須? | 説明 |
---|---|---|
Project Id | はい | Cloud Storage バケットを含むプロジェクトの ID。 |
Bucket name | はい | データを読み書きするバケットの名前。 |
資格情報 settings | はい | 上記の認証ガイダンスを使用して設定します。 |
Proxy settings | いいえ | Google Cloud Storage への接続中にプロキシを使用するには有効化します。 |
Google Cloud Storage コネクタは、ファイルベースの同期インターフェースを使用します。ファイルベースの同期の設定についてのドキュメンテーションを参照してください。
コネクタは、Foundry データセットからのファイルを Google Cloud Storage バケットの任意の場所にコピーできます。
データのエクスポートを開始するには、エクスポートタスクを設定する必要があります。エクスポートしたい Google Cloud Storage コネクタが含まれるプロジェクトフォルダーに移動します。コネクタ名を右クリックし、Create Data Connection Task
を選択します。
Data Connection ビューの左パネルで:
Source
名が使用したいコネクタと一致していることを確認します。Input
という名前で inputDataset
を追加します。input dataset はエクスポートされる Foundry データセットです。Output
という名前で outputDataset
を追加します。output dataset はタスクを実行、スケジュール設定、監視するために使用されます。左側のパネルに表示されるコネクタと入力データセットのラベルは、YAML で定義された名前を反映していません。
エクスポートタスクの YAML を作成する際に以下のオプションを使用します:
オプション | 必須? | 説明 |
---|---|---|
directoryPath | はい | ファイルが書き込まれる Cloud Storage のディレクトリ。 |
excludePaths | いいえ | レギュラーエクスプレッションのリスト; これらの表現に一致する名前のファイルはエクスポートされません。 |
uploadConfirmation | いいえ | 値が exportedFiles の場合、出力データセットにはエクスポートされたファイルのリストが含まれます。 |
retriesPerFile | いいえ | ネットワークの障害が発生している場合、この数値を増やすことでエクスポートジョブが Cloud Storage へのアップロードをリトライし、ジョブ全体が失敗する前にこれを可能にします。 |
createTransactionFolders | いいえ | 有効にすると、データは指定した directoryPath 内のサブフォルダーに書き込まれます。各サブフォルダーは Foundry でのトランザクションがコミットされた時間に基づいており、エクスポートされた各トランザクションに対してユニークな名前があります。 |
threads | いいえ | ファイルを並列にアップロードするために使用されるスレッドの数を設定します。この数値を増やすことで、より多くのリソースを使用します。エージェント上で実行されるエクスポートが、増加した並列化を処理できるだけのエージェント上のリソースを持っていることを確認してください。 |
incrementalType | いいえ | データセットがインクリメンタルに構築される場合、前回のエクスポート以降に発生したトランザクションのみをエクスポートするように incremental に設定します。 |
タスク設定の例:
Copied!1 2 3 4 5 6 7 8 9 10
type: export-google-cloud-storage directoryPath: directory/to/export/to # エクスポート先のディレクトリパス excludePaths: - ^_.* # 除外するパス(アンダースコアで始まるパス) - ^spark/_.* # 除外するパス(spark/で始まりアンダースコアで続くパス) uploadConfirmation: exportedFiles # アップロード確認 incrementalType: incremental # インクリメンタルタイプ retriesPerFile: 0 # ファイルごとの再試行回数 createTransactionFolders: true # トランザクションフォルダの作成 threads: 0 # スレッド数
エクスポートタスクを設定した後、右上の角にある Save を選択してください。