注: 以下の翻訳の正確性は検証されていません。AIPを利用して英語版の原文から機械的に翻訳されたものです。
LLM 容量は業界レベルで限られたリソースであり、すべてのプロバイダー(Azure、OpenAI、AWS Bedrock、Google Cloud Vertex など)はアカウントごとに利用可能な最大容量を制限しています。そのため、Palantir AIP も LLM プロバイダーによって設定された市場レベルの制約に従います。業界全体で標準的な測定単位は、1 分あたりのトークン数(TPM)および1 分あたりのリクエスト数(RPM)です。
Palantir は各エンロールメントに対して一定の最大容量を設定しており、これを「エンロールメントレベルのレート制限」と呼びます。この容量は TPM および RPM を使用してモデルごとに測定され、GPT、Claude、Gemini、Llama、Mixtral など、ユーザーのエンロールメントで有効になっているすべてのプロバイダーのすべてのモデルを含みます。このようにして、各モデルは他のモデルの使用に影響されない独立した容量を持ちます。
デフォルトでは、すべての顧客は中程度の層にあり、これは数百人のユーザーや大規模なデータセット(たとえば数百万のドキュメントを含む)でプロトタイプを構築し、いくつかのユースケースにスケールアップするのに十分な大きさです。
さらに、AIP では、追加の容量が必要な場合に、中程度の層から大規模または XL 層にエンロールメント容量をアップグレードするオプションを提供しています。エンロールメントレート制限に頻繁に達し、AIP の使用を拡大できない場合、またはパイプラインのボリュームやユーザー数が増加することが予想される場合は、Palantir サポートに連絡してください。
エンロールメント制限は、Resource Management アプリケーションの AIP レート制限 タブにエンロールメント層とともに表示されます。
AIP は、特に XL 層でエンロールメント層を使用して非常に大規模なワークフローを構築するのに十分な容量を提供します。これらの層は、LLM を大規模に使用する数百の Palantir 顧客に十分な容量を提供しており、これらの制限を引き続き増加させています。
エンロールメント管理者は、Resource Management アプリケーションの AIP レート制限 ページに移動して、特定のプロジェクト内のすべてのリソースが毎分利用できる TPM および RPM の最大パーセントをモデルごとに設定できます。
これは、AIP における野心的なユースケースのために生産用途に LLM の利用を最大化し、実験的なプロジェクトがエンロールメント全体の容量を占有するのを制限または禁止する柔軟性を提供します。
デフォルトでは、すべてのプロジェクトに特定の制限が与えられます。管理者は追加のプロジェクト制限を作成し、各制限に含まれるプロジェクトを定義し、使用できるエンロールメント容量のパーセントを設定できます。
一般的に、AIP はバッチリクエストを含むパイプラインよりもインタラクティブリクエストを優先します。インタラクティブクエリとは、AIP Assist、Workshop、Agent Studio、AIP Logic LLM ボードのプレビュー、および Pipeline Builder LLM ノードのプレビューなど、ユーザーが LLM とリアルタイムでやり取りする任意のインタラクションを指します。バッチクエリは、ユーザーが即時の応答を期待せずに送信する大量のリクエストセットを指し、たとえば Transforms パイプライン、Pipeline Builder、Automate(Logic 用)などです。
この原則は、エンロールメントおよびプロジェクトレベルで容量の 20% が常にインタラクティブクエリのために予約されることを保証します。つまり、特定のモデルに対する 100,000 TPM の容量の場合、任意の時点で最大 80,000 TPM がパイプラインに使用される一方で、少なくとも 20,000 TPM(および最大 100,000 TPM)はインタラクティブクエリのために利用可能です。
次の例を考えてみます: