データ統合パイプラインのビルドストリーミングパイプラインストリーミングパイプライン:概要

注: 以下の翻訳の正確性は検証されていません。AIPを利用して英語版の原文から機械的に翻訳されたものです。

ストリーミングパイプライン:概要

ストリーミングパイプラインは、リアルタイムデータに基づいて即時の重要な決定を行う能力を提供します。データを専用のコンピューティングでストリームとして処理することで、ストリーミングパイプラインは非常に低いレイテンシでレコードを処理することができます。平均して、ストリーミングデータはオントロジーで利用可能となり、QuiverFoundry Rulesのような時系列アプリケーションでの分析が可能となるまで、15秒未満で利用可能になります。この低レイテンシを実現するために、ストリームは継続的に稼働するコンピューティング上に構築され、バッチパイプラインと比較して異なるアーキテクチャとメンテナンスの考慮が必要です。

ベストプラクティス

ストリーミングパイプラインを構築する際には、以下の要素を考慮してください:

  • ストリームはよく高度な運用ワークフローを支えており、ダウンタイム、メンテナンス、ロジックの変更について慎重な計画が必要です。
  • ストリーミングのためのコンピューティングは継続的に稼働します。これは、定期的なバッチジョブよりも高いコンピューティングコストが発生する可能性があります。バッチパイプラインと同様に、最小のプロファイルから始めて、データの規模がそれを必要とする場合に調整を行ってください。
  • ストリームは行単位で動作し、低レイテンシのデータ転送を確保するために最大行サイズに制約があります。制約は1mbの個々の行に設定されています。
  • ステート(ウィンドウや集計など)を使用するストリームでは、ストリームのロジックを変更したときにステートが壊れないように、設計の考慮が必要です。

はじめに

Foundryでストリーミングパイプラインを使用するためには、シンプルなストリーミングパイプラインの作成について確認し、Pipeline Builderでストリーミング変換について学んでください。データソースをFoundryに接続する方法について学びたい場合は、ストリームにデータをプッシュする方法、またはストリーミング同期の設定方法を確認してください。