注: 以下の翻訳の正確性は検証されていません。AIPを利用して英語版の原文から機械的に翻訳されたものです。
バッチ同期機能により、外部システムからFoundryのデータセットにデータを同期できます。バッチ同期は最も広くサポートされている機能で、ほぼすべてのコネクタで利用可能です。バッチ同期により、スキーマを持つ表形式データとスキーマを持たない生ファイルの両方を同期することができます。
バッチ同期を作成すると、同期されたデータが書き込まれる新しいFoundryデータセットも作成されます。同期が設定されると、手動で実行するか、スケジュールを設定して外部システムからデータを読み取り、出力データセットに書き込むビルドをトリガーすることができます。
以下の手順に従ってバッチ同期を設定してください。この設定ガイドでは、バッチ同期機能をサポートするソース接続を設定していることを前提としています。
まず、Data Connectionアプリケーションでソース接続に移動し、概要ページからNew batch syncを選択します。これは新しく設定されたソースである場合、以下のように利用可能な機能が表示され、バッチ同期オプションの横にあるCreateを選択します。
コネクタがソース探索をサポートしている場合、Explore and create syncsを選択してデータソースを探索し、探索ビューから直接同期の作成を開始することもできます。詳細についてはソース探索ドキュメントを参照してください。
出力場所は、同期されたデータセットが作成される場所を定義し、プロジェクトレベルの権限に基づいて、誰が結果データにアクセスできるかを決定します。ソースに対してデフォルトの出力フォルダーが指定されている場合がありますが、必要に応じて各同期ごとに上書きすることができます。
同期データセットをコネクタと一緒に保存することをお勧めします。これにより、特定のコネクタからのすべてのデータに一律に権限を設定するパターンが可能になり、データパイプラインを作成する際に便利です。データパイプラインの推奨プロジェクト構造についてさらに学びましょう。
既存のデータセットへの同期はサポートされていますが、選択されたデータセット内の既存データが上書きされる可能性があるため、推奨されません。
出力先と同じページで、バッチ同期を構成するためのさまざまな設定が表示されます。
ソースに応じて、異なるオプションが利用可能です。最も一般的なバッチ同期の種類は次の2つです:
ほとんどのシステムはファイルまたはテーブルバッチ同期のいずれかをサポートしていますが、両方をサポートするシステムもあります。
以下の例は、各ビルドでSNAPSHOT
更新を行うS3からのファイルバッチ同期の設定を示しています。オプションでサブディレクトリやフィルターを指定して、出力データセットに同期されるファイルのセットを絞り込むことができます。例ではサブディレクトリやフィルターを指定していないため、ソース接続を設定したときに選択したルートディレクトリの下にあるすべてのファイルが同期されます。
ファイルバッチ同期の追加設定については、ファイルバッチ同期のリファレンスドキュメントに記載されています。利用可能なフィルターの詳細なドキュメントも含まれています。
この例は、Microsoft SQL Serverからのテーブルバッチ同期の設定を示しています。クエリにより、対象システムから取得されるデータが定義されます。この場合、インクリメンタルバッチ同期設定も有効になっており、単調増加する列に基づいてデータをインクリメンタルに更新することができます。
Explore sourceタブでSQLストアドプロシージャを視覚化することはできませんが、SQL Queryフィールドで対応するプロシージャの後にEXEC
コマンドを実行することで、SQLストアドプロシージャを実行できます。
ほとんどのバッチ同期で利用可能な他のオプションが多数あり、コネクタによって異なる場合があります。バッチ同期の一般的な設定オプションのいくつかの例を以下に示します:
SNAPSHOT
)、インクリメンタルに追加されるか(APPEND
)を決定します。インクリメンタル同期についてさらに学びましょう。テーブルバッチ同期のみ利用可能なオプションは以下の通りです:
timestamp
として同期するか、long
として同期することもできます。続行する前に、設定した内容に基づいて同期されるデータのプレビューを実行できます。これを使用して、同期が期待どおりに設定されていることを確認してください。
以下に、csv_files
というサブフォルダーへのフィルターを使用したS3ファイルバッチ同期のプレビュー例を示します:
上記の例では、Exclude files already syncedフィルターを使用する際のPreview not available
警告が表示されています。これは、このフィルターがプレビュー結果に反映されず、同期がスケジュールまたは手動で実行されたときにのみ適用されるためです。
バッチ同期を保存した後、実行するタイミングと方法を選択できます。
概要ページに表示されるRunボタンを使用してバッチ同期を手動で実行します。
バッチ同期を定期的に実行するようにビルドスケジュールを設定します:
Data Lineageアプリケーションを使用して、複数の同期に対してスケジュールを設定します。
同じバッチ同期に対してData ConnectionとData Lineageの両方からスケジュールを設定するべきではありません。Data Lineageから設定されたスケジュールは、常にForce buildオプションを使用してData Connectionの同期をビルドする必要があります。
この設定ガイドでは、コネクタからFoundryデータセットにデータを取り込むためのバッチ同期の作成方法を学びました。以下のその他のリソースもご覧ください: