注: 以下の翻訳の正確性は検証されていません。AIPを利用して英語版の原文から機械的に翻訳されたものです。

スケーリング

コンピュートモジュールは自動水平スケーリング機能を提供し、デプロイメントのリソースを効率的に管理できます。レプリカの範囲を設定し、レプリカごとの同時実行制限を設定することで、スケーリングの動作に影響を与えることができます。

最小レプリカ数

非ゼロの最小値: 最小レプリカ数をゼロ以上に設定すると、たとえ非アクティブな期間でもアプリケーションのインスタンスが常にその数だけ実行されることを保証します。 ゼロ最小値: 最小レプリカ数をゼロに設定すると、アクティブなリクエストがない場合にアプリケーションがゼロレプリカまでスケールダウンすることができます。ただし、リクエストが受信されるとすぐに、初期デプロイメント時や負荷が予測される場合にアプリケーションはゼロからすぐにスケールアップします。

最大レプリカ数

  • 水平スケーリングのための最大アクティブレプリカ数を設定します。
  • リソースの割り当てが望ましい範囲内に収まり、過剰なコストを防ぎ、トラフィックの急増による制御不能なスケーリングを防ぐことを確認します。

同時実行制限

同時実行制限は、単一のレプリカが同時に処理できる最大リクエスト数を定義します。これは各レプリカの並列処理能力を表します。たとえば、同時実行制限が 3 の場合、各レプリカは同時に 3 個のクエリを処理できます。デフォルト設定は 1 であり、各レプリカはリクエストを順次処理します。

SDK の 1 つを使用している場合、この同時実行制限は組み込まれています。ただし、カスタムクライアントを構築している場合、この値は MAX_CONCURRENT_TASKS 環境変数から取得できます。

予測スケーリング

コンピュートモジュールは、デプロイメントの過去のクエリ負荷を追跡して予測スケーリング機能を提供します。このシステムは予測される需要を満たすために事前にスケールアップしようとします。予測が不正確な場合、システムは調整してスケールダウンします。予測スケーリングは設定された最大レプリカ数を尊重するため、デプロイメントのスケーリングを時間をかけて監視し、設定を適宜調整することを確認してください。