注: 以下の翻訳の正確性は検証されていません。AIPを利用して英語版の原文から機械的に翻訳されたものです。
探査を使用してファイルベースの同期を作成した後、同期ページの Configurations タブで設定を更新できます。
ファイルベースの同期の設定オプションには、以下のものがあります。
パラメーター | 必須? | デフォルト | 説明 |
---|---|---|---|
Subfolder | はい | Foundry に同期されるコネクタ内のファイルの場所を指定します。 | |
Filters | いいえ | Foundry に同期されるファイルを制限するために フィルター処理する を適用します。 | |
Transformers | いいえ | Foundry に同期される前にデータに 変換処理を適用 します。 | |
Completion strategies | いいえ | 成功した同期後にファイルを削除し、空の親ディレクトリを削除するために 有効にします。ソースファイルシステムに対する書き込み権限が必要です。 |
同期は、指定されたサブフォルダーからすべてのネストされたファイルとフォルダーを含みます。
フィルター処理は、Foundry にインポートする前にソースファイルをフィルター処理することができます。サポートされているフィルター処理タイプは以下の通りです。
変換処理では、基本的なファイル変換(圧縮や復号化など)を Foundry にアップロードする前に実行できます。同期中、選択された変換処理に従って、インジェストされるファイルが変更されます。
Data Connection の変換処理を使用する代わりに、Pipeline Builder や Code Repositories を使用して Foundry でデータ変換を行うことをお勧めします。これにより、出所とブランチングが利用できます。
Data Connection でサポートされている変換処理は以下の通りです。
^(.*/)
を /
に置き換えます。完了戦略は、同期が完了し、データが Foundry に正常にインポートされた後にリソースをクリーンアップするために設計されています。Data Connection では、インポートされたファイルがコネクタシステムから削除されるようにサポートされています。同期にこの設定を正常に適用するには、ソースファイルシステムに対する書き込みアクセスがあることを確認してください。
このガイドは、新しい同期の設定や遅い同期、信頼性の低い同期のトラブルシューティングを行っているユーザーにお勧めします。同期がすでに正常に動作している場合は、何もする必要はありません。
多くのファイルを1つのデータセットに同期することは、さまざまな理由で難しいことがあります。
100万個のファイルをアップロードすることを目的とした同期を考えてみましょう。ソースシステムをクロールし、1つのファイルを除いてすべてのファイルをアップロードした後、ネットワークの問題が発生し、同期全体が失敗します。同期は トランザクション であるため、同期が失敗すると、トランザクション全体も失敗します。
ネットワークの問題は、同期の失敗の原因となるものの1つであり、数時間の作業が無駄になり、ソースシステムやエージェントに不必要な負荷がかかります。ネットワークの問題やエラーがなくても、大量のファイルを同期するのに時間がかかることがあります。
データセットが時間とともに成長すると、SNAPSHOT
としてデータを同期する時間が長くなります。これは、SNAPSHOT
トランザクションでは、データセットからのすべてのデータが Foundry に同期されるためです。代わりに、トランザクションタイプ APPEND
で設定された同期を使用して、データをインクリメンタルにインポートします。これにより、小さなデータの断片を同期することで、効果的なチェックポイントが作成され、同期の失敗が発生した場合も、完全な再実行を必要とせず、最小限の重複作業が発生します。さらに、すべてのデータをアップロードする必要がなくなるため、データセットの同期がより迅速に実行されます。
APPEND
同期の設定APPEND
トランザクションは、正常に実行するために追加の設定が必要です。
デフォルトでは、Foundry に同期されるファイルはフィルター処理されません。ただし、APPEND
同期では、同じファイルがインポートされるのを防ぐためにフィルター処理が必要です。Exclude files already synced
および Limit number of files
フィルター処理を使用して、1回の同期で Foundry にインポートされるファイルの数を制御することをお勧めします。さらに、完了戦略 を追加して、同期が正常に完了した後にファイルを削除します。最後に、同期をスケジュール して、ソースシステムと同期を保ちます。