ドキュメントの検索
karat

+

K

APIリファレンス ↗

注: 以下の翻訳の正確性は検証されていません。AIPを利用して英語版の原文から機械的に翻訳されたものです。

ファイルベースの同期

探査を使用してファイルベースの同期を作成した後、同期ページの Configurations タブで設定を更新できます。

ファイルベースの同期の設定

ファイルベースの同期の設定オプションには、以下のものがあります。

パラメーター必須?デフォルト説明
SubfolderはいFoundry に同期されるコネクタ内のファイルの場所を指定します。
FiltersいいえFoundry に同期されるファイルを制限するために フィルター処理する を適用します。
TransformersいいえFoundry に同期される前にデータに 変換処理を適用 します。
Completion strategiesいいえ成功した同期後にファイルを削除し、空の親ディレクトリを削除するために 有効にします。ソースファイルシステムに対する書き込み権限が必要です。

同期は、指定されたサブフォルダーからすべてのネストされたファイルとフォルダーを含みます。

フィルター処理

フィルター処理は、Foundry にインポートする前にソースファイルをフィルター処理することができます。サポートされているフィルター処理タイプは以下の通りです。

  • すでに同期されたファイルを除外: 最後の同期以降に追加されたり、サイズや日付が変更されたファイルのみを同期します。
  • パスが一致: コネクタのルートに対する相対パスが正規表現と一致するファイルのみを同期します。
  • パスが一致しない: コネクタのルートに対する相対パスが正規表現と一致しないファイルのみを同期します。
  • 最終更新日時が指定日時より後: 指定された日時以降に変更されたファイルのみを同期します。
  • ファイルサイズが範囲内: 指定された最小バイト値と最大バイト値の間のサイズを持つファイルのみを同期します。
  • 任意のファイルのパスが一致する場合: 任意のファイルの相対パスが正規表現と一致する場合、サブフォルダ内のすべてのファイルを、それ以外のフィルター処理が適用されていないファイルに同期します。
  • 少なくとも N 個のファイルがある場合: 残りのファイルが少なくとも N 個ある場合にのみ、すべてのフィルター処理されたファイルを同期します。
  • ファイル数を制限する: トランザクションごとに保持するファイルの数を制限します。このオプションは、インクリメンタル同期の信頼性を向上させることができます。

変換処理

変換処理では、基本的なファイル変換(圧縮や復号化など)を Foundry にアップロードする前に実行できます。同期中、選択された変換処理に従って、インジェストされるファイルが変更されます。

Data Connection の変換処理を使用する代わりに、Pipeline BuilderCode Repositories を使用して Foundry でデータ変換を行うことをお勧めします。これにより、出所とブランチングが利用できます。

Data Connection でサポートされている変換処理は以下の通りです。

  • Gzip で圧縮
  • 複数のファイルを連結
    • 複数のファイルを単一のファイルに結合します。
  • ファイルの名前を変更
    • 与えられたファイル名の部分文字列をすべて新しい部分文字列に置き換えます。
    • ファイル名からディレクトリパスを削除するには、^(.*/)/ に置き換えます。
  • PGP で復号化
    • PGP 暗号化で暗号化されたファイルを復号化します。
    • エージェントシステムに PGP キーが設定されている必要があります。
    • 直接接続で実行されている同期には利用できません。
  • ファイル名にタイムスタンプを追加
    • カスタム形式のタイムスタンプを、各ファイルのファイル名に追加します。

完了戦略

完了戦略は、同期が完了し、データが Foundry に正常にインポートされた後にリソースをクリーンアップするために設計されています。Data Connection では、インポートされたファイルがコネクタシステムから削除されるようにサポートされています。同期にこの設定を正常に適用するには、ソースファイルシステムに対する書き込みアクセスがあることを確認してください。

ファイルベースの同期の最適化

警告

このガイドは、新しい同期の設定や遅い同期、信頼性の低い同期のトラブルシューティングを行っているユーザーにお勧めします。同期がすでに正常に動作している場合は、何もする必要はありません。

多くのファイルを1つのデータセットに同期することは、さまざまな理由で難しいことがあります。

100万個のファイルをアップロードすることを目的とした同期を考えてみましょう。ソースシステムをクロールし、1つのファイルを除いてすべてのファイルをアップロードした後、ネットワークの問題が発生し、同期全体が失敗します。同期は トランザクション であるため、同期が失敗すると、トランザクション全体も失敗します。

ネットワークの問題は、同期の失敗の原因となるものの1つであり、数時間の作業が無駄になり、ソースシステムやエージェントに不必要な負荷がかかります。ネットワークの問題やエラーがなくても、大量のファイルを同期するのに時間がかかることがあります。

データセットが時間とともに成長すると、SNAPSHOT としてデータを同期する時間が長くなります。これは、SNAPSHOT トランザクションでは、データセットからのすべてのデータが Foundry に同期されるためです。代わりに、トランザクションタイプ APPEND で設定された同期を使用して、データをインクリメンタルにインポートします。これにより、小さなデータの断片を同期することで、効果的なチェックポイントが作成され、同期の失敗が発生した場合も、完全な再実行を必要とせず、最小限の重複作業が発生します。さらに、すべてのデータをアップロードする必要がなくなるため、データセットの同期がより迅速に実行されます。

インクリメンタル APPEND 同期の設定

APPEND トランザクションは、正常に実行するために追加の設定が必要です。

デフォルトでは、Foundry に同期されるファイルはフィルター処理されません。ただし、APPEND 同期では、同じファイルがインポートされるのを防ぐためにフィルター処理が必要です。Exclude files already synced および Limit number of files フィルター処理を使用して、1回の同期で Foundry にインポートされるファイルの数を制御することをお勧めします。さらに、完了戦略 を追加して、同期が正常に完了した後にファイルを削除します。最後に、同期をスケジュール して、ソースシステムと同期を保ちます。