注: 以下の翻訳の正確性は検証されていません。AIPを利用して英語版の原文から機械的に翻訳されたものです。

ストリーミング同期の設定

同期とは、特定のデータをソースから読み取り、Foundry に取り込むタスクです。たとえば、複数のテーブルを含むリレーショナルデータベースソースがある場合、特定のテーブルを Foundry に取り込むように同期を設定することができます。

ストリーミング同期は、非ストリーミング(つまり、バッチまたは増分)の同期と似ていますが、いくつかの違いがあります。主な違いは、バッチまたは増分同期は定期的に実行されるのに対し、ストリーミング同期はできるだけ遅延なくデータを Foundry に取り込むために一貫して実行されることです。

以下では、同期を作成するために必要な手順を説明します:

  1. ソースからデータを定義します。
  2. Foundry でデータを送信する場所を定義します。
  3. ストリーミング同期を設定します。
  4. ストリーミング同期を実行します。

このチュートリアルでは、同期の設定にKafkaソースを使用します。

パート 1. データの定義

まず、Foundry に同期したいデータを決定します。Data Connection でストリーミングソースを選択し、右上の角にある利用可能なアクションを選択します。

  • データを探索して同期を作成する: このオプションは、ソースタイプがソース探索をサポートしている場合に表示され、同期を作成しながらデータソースを探索できます。
  • 同期を作成する: このオプションは、ソースタイプがソース探索をサポートしていない場合に表示されます。
Explore Kafka source

探索して同期を作成する

ソースタイプがソース探索をサポートしている場合、Data Connection のソースを探索ページにアクセスし、同期可能なデータが表示されます。探索ビュー インターフェースは、使用しているソースタイプによって異なります。たとえば、Kafka ソースの探索では、Kafka ブローカー上に存在するトピックを表示し、それらのトピックに含まれるデータをプレビューできます。

Kafka 探索ビューから、ページの左側にあるリストで既存のトピックを表示できます。

Explore Kafka source

トピックを選択すると、そのトピックのデータのサンプルをプレビューできます。

Preview Kafka topic

パート 2. 同期場所の定義

次に、Foundry で同期したデータセットを保存する場所を決定する必要があります。データセットの場所によって、プロジェクトレベルの権限に基づいて、結果のデータセットにアクセスできるユーザーが決まります。

同期データセットをソースの隣にプロジェクトに保存することをお勧めします。これにより、同じ権限が適用されます。データパイプラインを作成する際に、データセットとソースの権限を一致させると便利です。データパイプライン用の推奨プロジェクト構造について詳しくはこちら。

同期場所を選択したら、右上のストリーミング同期を作成をクリックします。

パート 3. ストリーミング同期の設定

これで、Data Connection の同期作成ページに移動し、同期のソース固有とコアストリーミング設定を定義できます。

  • ソース固有: 設定ページの上部にあるこれらのオプションは、ソースタイプに依存し、接続している特定のソースに渡されるパラメーターを設定します。
  • コアストリーミング: ソース固有の設定の下にあるこれらのオプションは、すべてのストリーミング同期に共通です。コア設定には、スループット、スキーマ、同期先が含まれます。
Configure Kafka sync

次に、ストリームのスループットを選択します。スループットは、作成されるパーティションの数を決定します。パーティション数を多く選択すると、スループットが向上します。Normal スループットを選択すると、そのストリームの最大 5 MB/s が可能になります。

次に、入力データのスキーマを指定します。デフォルトでは、これはソースから推測されますが、必要に応じて上書きすることができます。

Set stream schema

同期を設定したら、右上の同期を作成を選択します。

同期が作成されると、概要タブに移動します。

パート 4. 同期の実行

これで、同期を実行する準備が整いました。概要タブを選択して、新しい同期の概要、出力データセット、場所、利用可能なアクションを表示します。

開始をクリックして、外部ストリームからのデータの同期を Foundry に開始します。

Kafka sync overview

ストリームデータを表示するには、同期の作成中に設定したストリームに移動し、ストリームプレビューページを表示します。ストリームには、Kafka トピックからのレコードが流れているはずです。

View stream ouptut

次のステップ

同期が成功したので、失敗するストリームのデバッグ方法や、プッシュベースの取り込みを使用してストリームにデータをプッシュする方法を学びましょう。