注: 以下の翻訳の正確性は検証されていません。AIPを利用して英語版の原文から機械的に翻訳されたものです。
exploration を使用してファイルベースの同期を作成した後、同期ページの Configurations タブで構成を更新できます。
ファイルベースの同期の構成オプションには、以下が含まれます。
パラメーター | 必須? | デフォルト | 説明 |
---|---|---|---|
Subfolder | はい | Foundry に同期されるファイルの場所をコネクタ内で指定します。 | |
Filters | いいえ | Foundry に同期されるファイルを制限するためにフィルター処理するを適用します。 | |
Transformers | いいえ | データが Foundry に同期される前にトランスフォーマーを適用するを適用します。 | |
Completion strategies | いいえ | 成功した同期後にファイルおよび/または空の親ディレクトリを削除することを有効にするために使用されます。ソースファイルシステムに書き込み権限が必要です。 |
同期は指定されたサブフォルダーからすべてのネストされたファイルとフォルダーを含みます。
フィルターを使用して、Foundry にインポートする前にソースファイルをフィルター処理することができます。サポートされているフィルタータイプは次のとおりです。
トランスフォーマーを使用して、Foundry にアップロードする前に基本的なファイル変換(たとえば、圧縮や復号化)を実行できます。同期中に取り込むファイルは、選択したトランスフォーマーに従って変更されます。
Data Connection のトランスフォーマーを使用するのではなく、Pipeline Builder や Code Repositories を使用して Foundry 内でデータ変換を行うことをお勧めします。これにより、プロベナンスとブランチングの利点を享受できます。
Data Connection でサポートされているトランスフォーマーは次のとおりです。
^(.*/)
を /
に置き換えて、ファイル名からディレクトリパスを削除します。完了戦略を使用すると、Foundry データセットにファイルをバッチ同期した後に、ファイルおよび空の親ディレクトリを削除する方法を提供します。たとえば、中間の S3 バケットや他のファイルストレージシステムに書き込むことでデータを同期し、Foundry から読み取る場合に役立ちます。Foundry が読み取るデータがすでに短命のコピーである場合、データが読み取られて Foundry に正常に書き込まれた後に削除するのは一般的に安全です。
完了戦略にはいくつかの重要な制限と注意点があります。これらの制限および潜在的な軽減策や代替案については、以下に説明します。
完了戦略は agent worker runtime を使用する場合にのみサポートされます。direct connection や agent proxy ランタイムを使用する場合、完了戦略が提供する機能を下流の外部トランスフォームとして実装することをお勧めします。
たとえば、ファイル foo.txt
と bar.txt
を含む S3 バケットへの直接接続があると仮定します。これらのファイルをデータセットにコピーし、その後 S3 からファイルを削除するためにファイルバッチ同期を使用したい場合、完了戦略を使用せずに次の手順を実行することをお勧めします。
このアプローチは、削除呼び出しが失敗した場合に再試行可能であり、データが Foundry に正常にコミットされた後に削除を試みることを保証します。このアプローチは増分ファイルバッチ同期にも対応しています。
完了戦略はベストエフォートであり、データが確実に削除されることを保証しません。以下は、完了戦略が失敗する可能性のあるいくつかの状況です。
一般的に、可能な限り完了戦略の代替案を使用することをお勧めします。カスタム完了戦略はサポートされなくなりました。
このガイドは、新しい同期を設定するか、遅いまたは信頼性の低い同期をトラブルシューティングするユーザーに推奨されます。同期がすでに信頼性高く動作している場合、特にアクションを取る必要はありません。
多数のファイルを単一のデータセットに同期することは、多くの理由で困難です。
100 万個のファイルをアップロードすることを目的とした同期を考えてみます。ソースシステムをクロールしてほとんどのファイルをアップロードした後、ネットワークの問題により同期全体が失敗します。同期はトランザクションであるため、同期が失敗すると、これまでの作業がすべて失われます。
ネットワークの問題は、同期の失敗の一般的な原因の 1 つであり、何時間もの作業が無駄になり、ソースシステムやエージェントに不要な負荷がかかります。ネットワークの問題やエラーがなくても、多数のファイルを同期するには時間がかかることがあります。
データセットが時間とともに成長すると、SNAPSHOT
としてデータを同期する時間が増加します。これは、SNAPSHOT
トランザクションがデータセットからのすべてのデータを Foundry に同期するためです。代わりに、トランザクションタイプ APPEND
で構成された同期を使用してデータを増分的にインポートします。小さなデータチャンクを同期するため、効果的なチェックポイントを作成できます。同期が失敗しても、重複する作業量が最小限に抑えられ、完全な再実行が不要となります。さらに、すべてのデータを毎回アップロードする必要がなくなるため、データセットの同期が高速化されます。
APPEND
同期の構成APPEND
トランザクションは、成功するために追加の構成が必要です。
デフォルトでは、Foundry に同期されるファイルはフィルター処理されません。ただし、APPEND
同期は同じファイルがインポートされないようにするためにフィルターが必要です。Exclude files already synced
フィルターおよび Limit number of files
フィルターを使用して、1 回の同期で Foundry にインポートされるファイルの数を制御することをお勧めします。さらに、同期が正常に完了した後にファイルを削除するために完了戦略を追加します。最後に、ソースシステムと最新の状態を保つために同期のスケジュールを設定します。