注: 以下の翻訳の正確性は検証されていません。AIPを利用して英語版の原文から機械的に翻訳されたものです。
モデリングプロジェクトが成熟し、規模が拡大し、運用段階に移行すると、現行のモデルと新たに提出されたモデルを系統的に評価し、比較することが重要になります。モデルの提出は、よく管理された代表的なデータに対して、明確に定義された指標を用いて一貫性のある評価が必要です。
モデリング目的は、その目的に提出されたすべてのモデルに対して推論と指標のパイプラインを自動生成するように設定できるため、ソフトウェア内で系統的なテストと評価 (T&E) プランを実装することが可能になります。
自動的なモデル評価を有効にするためには、最初にモデリング目的を設定して、ユーザーのモデリング目的に提出されるモデルをどのように評価するかを設定する必要があります。
モデリング目的での自動モデル評価の設定の最初のステップは、推論と指標の生成を有効にすることです。Modeling Objectivesのホームページから、評価ダッシュボードの設定 をクリックするか、既にモデル評価を設定している場合は、評価ダッシュボードから 評価設定の編集 をクリックします。
評価ダッシュボードの設定ビューでは、推論と指標のパイプラインを自動生成するか、推論パイプラインのみを生成するかを選択できます。選択に応じて、推論と指標のデータセットが、既存のモデルの提出だけでなく、モデリング目的に対する新たなモデルの提出に対しても生成されます。
次に、新たなモデルが提出されたときに、推論または推論と指標のデータセットを自動的に生成するかどうかを決定できます。推論と指標のデータセットを自動的に生成することで、モデリングプロジェクトで使用を検討しているすべてのモデルが一貫性のある評価を受けることを確認できます。
推論と指標のパイプラインはモデルの提出時にのみ構築されます。既存のモデル提出については、評価ダッシュボードの 評価の構築 ボタンを介して手動で構築を開始する必要があります。
保存 をクリックして、推論と指標生成の設定を保存します。
評価データセット は、モデリング目的内でモデルが評価されるFoundryのデータセットです。もしモデリング目的が自動的に推論パイプラインを生成するように設定されている場合、モデルの提出と評価データセットのすべての組み合わせについて一つの推論データセットが生成されます。各評価データセットは、関連性があり、慎重に管理されているべきであり、それはキュレーションされた検証セットやテストセット、製品観測値、ユーザーフィードバックのインスタンス、キーテストケース、または仮想シナリオの表現を含む可能性があります。評価データセットは、モデルが推論を行うために必要なデータセットのフィールドやファイルを持つべきです。
評価データセットは、サイズ、更新頻度、パーミッションが異なることがあります。これらのデータセットを分けて保持することで、計算された指標の更新頻度とパーミッショニングをより細かく制御することが可能になります。
パーミッションはモデリング目的内で完全に尊重されます。ユーザーは、適切なアクセス権がない場合、モデル、評価データセット、評価ライブラリ、または指標を見ることはできません。
評価データセットを設定するには、評価データセットの追加 を選択します。ポップアップで以下を設定できます:
Foundry のフォルダーは新規または既存のフォルダーであり、評価データセットごとに一意である必要はありません。通常、モデリング目的ごとに一つの出力フォルダーを推奨しますが、ユーザーの特定のユースケースに合わせて設定することができます。
評価データセットと目的自体は、推論と指標の目的地と同じ Foundry プロジェクトに存在する必要があります。それ以外の場合は、Foundry プロジェクトへの参照として追加する必要があります。
モデリング目的を指標と推論のパイプラインを生成するように設定している場合、次のステップは 評価ライブラリ の設定です。評価ライブラリは、モデルの評価者を生成する Foundry 内の公開された Python パッケージです。Foundry は、二値分類と回帰のデフォルトのモデル評価者を提供し、カスタムモデル評価者の作成も可能です。評価ライブラリは、モデルの性能、公平性、ロバスト性、その他の指標を測定するために使用されます。
設定されると、評価ライブラリは、設定された推論データセットごとに一つのデータセットを生成します。このデータセットには、指標セットが含まれます。
評価ライブラリを設定するには、評価ライブラリの選択 をクリックし、評価ライブラリを選択し、そのモデル評価者に期待されるフィールドを設定します。列入力タイプについては、モデリング目的が評価データセットに存在する列を提案します。また、ドロップダウンに提案されていない、またはモデル変換によって生成されることがわかっている場合は、期待されるモデル出力の追加 を行い、モデル提出が生成することが期待される列を表現できます。
最も一般的な期待されるモデル出力のタイプは、予測出力(通常は prediction
と名付けられる)、確率出力(通常は probability_1
と名付けられる)、および信頼スコアです。
自動モデル評価の設定で任意のステップは、評価ライブラリが指標を生成するための 評価サブセット を定義することです。評価サブセットは、評価データセット内のデータのサブセットで、そのサブセットに対して指標が別々に生成されます。評価サブセットの指標は、評価ダッシュボードを通じて個別に分析することができます。
評価サブセットは、モデルが特定の入力データグループでどのように性能を発揮するかを理解するのに有用であり、したがって、モデルの解釈可能性、説明可能性、および潜在的に保護されたクラス間での公平性を改善するために使用できます。評価サブセットは、評価データセットの任意の列に生成することができ、したがって、モデルの特徴やモデルの予測など、モデル変換の入力や出力に生成する必要はありません。
指標は常に、"全体"のサブセットである各評価データセットの全体、すべての行に対して生成されます。評価サブセットの自動指標生成を設定することは任意です。
評価サブセットを設定するには、評価サブセットの追加 をクリックし、サブセットを作成するための評価データセットの列または期待されるモデル出力を選択します。
評価サブセットから string
型のフィールドを選択すると、評価パイプラインが構築された時点での評価ライブラリ内の各一意の文字列値に対して一意のサブセットが生成されます。
評価サブセットから数値型のフィールドを選択すると、サブセットを生成するための量的バケット化戦略を選択できます。バケットは、固定幅 または特定の 範囲カットオフ で定義することができます。両方のバケット化戦略では、バケットは次のように定義されます:
固定幅のバケットでは、開始値 と バケット幅 の両方を提供する必要があります。選択したフィールドの範囲の全体について、正と負の両方で、バケット幅ごとに一意のサブセットが生成されます。
範囲のカットオフでは、指定したすべての値の間で範囲を持つサブセットが生成されます。選択したフィールドの全範囲をカバーしていない場合、列の最小値から最低カットオフまで、最大カットオフから列の最大値までの2つの追加のバケットが生成される可能性があります。
各一意のサブセットは、すべての評価データセットとライブラリで評価されます。そのため、大量のサブセットを生成すると、モデル評価の構築時間が大幅に増加する可能性があります。
複数のフィールドの組み合わせを表すサブセットを生成することが可能です。複数のフィールドで 追加フィールドの追加 をクリックして、複数の列や期待されるモデル出力を一つのサブセットに組み合わせることができます。これにより、フィールド間のバケットの組み合わせごとにサブセットが作成されます。
量的バケット化戦略は、各サブセットフィールドごとに一意に定義することができます。
評価サブセットを設定すると、ページの右側に評価データセットのプレビューが表示されます。このプレビューは、設定したすべての評価データセットで利用可能であり、評価設定によって生成される評価サブセットの数を判断するために使用できます。
ページの右上角にある 設定の保存 をクリックして、評価設定を保存し、評価ダッシュボードに戻ります。