注: 以下の翻訳の正確性は検証されていません。AIPを利用して英語版の原文から機械的に翻訳されたものです。

評価スイートの作成

評価スイートは、特定のAIP Logic関数のパフォーマンスベンチマークを構築するために使用される評価関数とテストケースの集合です。評価スイートを作成するには、評価関数を設定し、評価スイートの実行中に評価関数に渡されるテストケースを定義する必要があります。

一部の評価機能、たとえばオブジェクトセットからテストケースを作成する機能は、Logicの実行パネルからは利用できず、Evaluationsアプリケーションからのみアクセス可能です。Logic内での評価機能については、Logic Evaluationsの入門ページを参照してください。このページには、Evaluationsアプリケーションで利用可能な機能が詳述されています。

Logicの実行パネルから直接テストケースをまだ追加していない場合は、評価スイートを作成する前にロジック関数を保存する必要があります。保存後、テストの設定を選択すると、Evaluationsアプリケーションに移動します。

AIP Logic関数内の評価サイドパネル。

テストケースの追加

Evaluationsでは、オブジェクトセットを使用してテストケースを作成するか、手動で定義することができます。テストケースを手動で定義するには、右上のテストケースを追加を選択します。各テストケースに名前を付け、入力とそれぞれの期待される値を選択します。実際の出力値はテストケースの一部として自動的に含まれるため、設定する必要はありません。

テストケース設定画面。

評価関数

評価関数は、Logic関数の実際の出力を期待される出力と比較または評価する際に使用される方法です。評価関数は、実際のLogic関数の出力値と期待される出力値のパラメーターを選択することで設定できます。評価関数によっては、他のパラメーターを設定する必要がある場合があります。評価スイートには、組み込み関数、マーケットプレイスで展開された関数、またはカスタム評価関数を含めることができます。

組み込み評価関数

組み込み評価関数の例には次のようなものがあります:

  • 正確な文字列一致: 実際の文字列が期待される文字列と完全に一致するかどうかを確認します。
  • 整数範囲: 実際の値が期待される値の範囲内にあるかどうかを確認します。整数のみがサポートされます。
  • 正確なブール一致: 実際のブール値が期待されるブール値と完全に一致するかどうかを確認します。
  • 正確なオブジェクト一致: 実際のオブジェクトが期待されるオブジェクトと完全に一致するかどうかを確認します。
  • 浮動小数点範囲: 実際の値が期待される値の範囲内にあるかどうかを確認します。すべての数値型がパラメーターとしてサポートされます。
  • 時間範囲: 実際の値が期待される値の範囲内にあるかどうかを確認します。DateTimestamp の値のみがサポートされます。

マーケットプレイスで展開された関数

マーケットプレイスで展開された関数を選択すると、インストールプロセスを案内するセットアップウィザードが開きます。以下はマーケットプレイス関数の例であり、さらに多くのものが登場予定です:

  • Rubric grader: 動的なマーキングルーブリックに基づいて生成されたテキストを評価するための一般的なLLMを利用した評価者。
  • ROUGEスコア: Recall-Oriented Understudy for Gisting Evaluation (ROUGE)スコアは、特に要約や翻訳のタスクで、機械生成テキストの品質を評価するために使用される一連のメトリクスです。高いROUGEスコアは、参照テキストに近い一致を示し、機械生成コンテンツのパフォーマンスが優れていることを示唆します。

カスタム評価関数

カスタム評価関数では、以前に公開された関数を選択することができます。これらは、Code Repositoriesで記述されたオブジェクトに関する関数や他のAIP Logic関数であり得ます。現在、カスタム評価関数はブールまたは数値型を返す必要があります。

評価関数の設定

評価関数を設定するには、評価スイートの右側の設定パネルから評価関数を追加を選択します。

新しい評価スイート。

組み込み関数またはマーケットプレイスで展開された関数から選択できます。また、カスタム評価関数を選択するオプションもあります。

評価関数選択ウィンドウ。

生成されたメトリクスフィールドでは、評価メトリクスダッシュボードに表示されるメトリクスに名前を付けることができます。たとえば、デフォルトの "isExactMatch" の代わりに、"classificationIsCorrect" のように、ユーザーのユースケースに対して意味的にさらに適切な名前に変更することができます。

関数パラメーターを持つ評価関数設定パネル。

上記のように関数を設定すると、追加したテストケースと共に、それぞれの評価スイートで利用可能になります。