注: 以下の翻訳の正確性は検証されていません。AIPを利用して英語版の原文から機械的に翻訳されたものです。
同期とは、特定のデータをソースから読み取り、Foundry に取り込むタスクです。たとえば、複数のテーブルを含むリレーショナルデータベースソースがある場合、特定のテーブルを Foundry に取り込むように同期を設定することができます。
ストリーミング同期は、非ストリーミング(つまり、バッチまたは増分)の同期と似ていますが、いくつかの違いがあります。主な違いは、バッチまたは増分同期は定期的に実行されるのに対し、ストリーミング同期はできるだけ遅延なくデータを Foundry に取り込むために一貫して実行されることです。
以下では、同期を作成するために必要な手順を説明します:
このチュートリアルでは、同期の設定にKafkaソースを使用します。
まず、Foundry に同期したいデータを決定します。Data Connection でストリーミングソースを選択し、右上の角にある利用可能なアクションを選択します。
ソースタイプがソース探索をサポートしている場合、Data Connection のソースを探索ページにアクセスし、同期可能なデータが表示されます。探索ビュー インターフェースは、使用しているソースタイプによって異なります。たとえば、Kafka ソースの探索では、Kafka ブローカー上に存在するトピックを表示し、それらのトピックに含まれるデータをプレビューできます。
Kafka 探索ビューから、ページの左側にあるリストで既存のトピックを表示できます。
トピックを選択すると、そのトピックのデータのサンプルをプレビューできます。
次に、Foundry で同期したデータセットを保存する場所を決定する必要があります。データセットの場所によって、プロジェクトレベルの権限に基づいて、結果のデータセットにアクセスできるユーザーが決まります。
同期データセットをソースの隣にプロジェクトに保存することをお勧めします。これにより、同じ権限が適用されます。データパイプラインを作成する際に、データセットとソースの権限を一致させると便利です。データパイプライン用の推奨プロジェクト構造について詳しくはこちら。
同期場所を選択したら、右上のストリーミング同期を作成をクリックします。
これで、Data Connection の同期作成ページに移動し、同期のソース固有とコアストリーミング設定を定義できます。
次に、ストリームのスループットを選択します。スループットは、作成されるパーティションの数を決定します。パーティション数を多く選択すると、スループットが向上します。Normal スループットを選択すると、そのストリームの最大 5 MB/s が可能になります。
次に、入力データのスキーマを指定します。デフォルトでは、これはソースから推測されますが、必要に応じて上書きすることができます。
同期を設定したら、右上の同期を作成を選択します。
同期が作成されると、概要タブに移動します。
これで、同期を実行する準備が整いました。概要タブを選択して、新しい同期の概要、出力データセット、場所、利用可能なアクションを表示します。
開始をクリックして、外部ストリームからのデータの同期を Foundry に開始します。
ストリームデータを表示するには、同期の作成中に設定したストリームに移動し、ストリームプレビューページを表示します。ストリームには、Kafka トピックからのレコードが流れているはずです。
同期が成功したので、失敗するストリームのデバッグ方法や、プッシュベースの取り込みを使用してストリームにデータをプッシュする方法を学びましょう。