注: 以下の翻訳の正確性は検証されていません。AIPを利用して英語版の原文から機械的に翻訳されたものです。

3. チュートリアル - Modeling Objectives アプリケーションでモデルを評価する

このチュートリアルに進む前に、モデリングプロジェクトのセットアップモデルのトレーニングのチュートリアルを完了しておく必要があります。これらを完了すると、モデリング目標に少なくとも1つのモデルが登録されているはずです。

このチュートリアルのステップでは、モデルのパフォーマンスを評価し、モデリング目標でそのモデルをリリースします。このステップは推奨されますが、チュートリアルの後のステップには影響せず、後で戻ってくることができます。以下の内容が含まれます。

  1. モデリング目標とは何か?
  2. 自動モデル評価の設定
  3. メトリクスパイプラインの構築
  4. 評価ダッシュボードでモデルを評価する方法

3.1 モデリング目標とは何か?

モデリング目標は、本番用モデルバージョンのカタログと考えることができます。目標にモデルを提出すると、そのカタログにモデルが追加され、特定のモデリング問題や目標の文脈での評価とレビューが可能になります。本番化されるかどうかに関わらず、各モデル提出は、モデリングプロジェクトの進捗を追跡し、プロジェクトスペースでの実験と学習の履歴を維持するのに役立ちます。

このチュートリアルのステップでは、特にアクションを実行する必要はありません。

Palantir Foundry の Modeling Objective に1つのモデルが登録されています。

3.2 自動モデル評価の設定方法

モデリング目標にモデル候補が登録されたので、このモデリング目標内でモデルパフォーマンスメトリクスを生成することで、このモデルがどの程度のパフォーマンスを発揮するか評価できます。パフォーマンスメトリクスは、モデルがどの程度のパフォーマンスを発揮し、なぜモデルがそのように動作するのかを理解する上で重要なツールです。

このチュートリアルの目的は、ある数値(アメリカの国勢調査地区での平均住宅価格)を推定することなので、モデリング問題は回帰モデリング問題として分類されます。回帰モデリング問題では、平均絶対誤差平方根平均二乗誤差などの評価メトリクスを見ることが一般的です。これらのメトリクスは、Foundry のデフォルトの回帰評価器に含まれているため、このライブラリを使用してモデル提出のパフォーマンスを評価します。

アクション: モデリング目標から、評価ダッシュボードの設定を選択します。

Modeling Objectives アプリケーションで評価パイプラインを設定する。

Palantir Foundry のモデリング目標で空の評価設定。

モデル評価の設定

自動モデル評価は、モデルが標準化された方法で評価されることを確認するための便利な方法です。標準化により、モデルの比較が一貫して行われ、どのモデルが本番環境で使用するのに最適かを確信を持って選択できます。

評価パイプライン管理が有効になっている場合、Foundry はモデル提出と評価データセットの組み合わせごとに1つの推論データセットを自動生成します。推論データセットとは、評価データセットに対してモデルの推論(予測の生成)を実行した結果です。評価データセットとは、ユーザーがモデルの標準化されたテストセットとして定義し、特徴量(予測の生成に使用される)とラベル(モデルの推論と基準となるラベルを比較するために使用される)の両方が必要です。

アクション: パイプライン管理を設定するには、編集を選択し、次のオプションを選択します。推論およびメトリクスパイプラインの生成モデル提出時に自動的に推論およびメトリクスを実行。次に、保存をクリックしてパイプライン管理設定を確認します。

Modeling Objectives の評価パイプライン設定。

アクション: 評価データセットを設定するには、評価データセットを追加を選択し、モデルトレーニングのチュートリアルで作成した**housing_test_data データセット**を評価データセットとして選択します。data フォルダーを推論先およびメトリクス先として選択し、データセットとフォルダーの選択をクリックして選択を確認します。

Palantir Foundry のモデリング目標での評価データセットの設定。

評価ライブラリの設定

評価ライブラリは、推論データセットを取得し、モデリング目標の評価ダッシュボードに追加される評価メトリクスを生成するために使用できる、Foundry ライブラリのパラメータ化可能な部分です。Foundry には、回帰および二項分類のデフォルトの評価ライブラリが用意されていますが、特定のモデリング問題に対してカスタム評価ライブラリを作成することも可能です。

このモデリング目標では、すべてのモデルが評価スコアを一貫して生成するようにします。このモデリング目標では、すべてのモデルが float 型の prediction という名前の推論列を生成することを期待しています。

アクション: 評価ライブラリの選択を選択し、回帰デフォルトライブラリを選択します。推論フィールドを float 型の prediction に設定し、実際のフィールド(推定しようとするプロパティ)を median_house_value に設定し、ヒストグラムビンは空のままにします。保存をクリックして評価ライブラリの設定を保存します。

Palantir Foundry のモデリング目標での評価データセットの設定。

評価サブセットの設定

評価サブセットの設定は、モデル評価のオプションのステップであり、評価データの特定の部分に対して独立してメトリクスを生成することができます。これらのメトリクスは、評価ダッシュボードで別々に分析することができます。

評価サブセットを有効にしたい場合は、以下のような場合です。

  • データのどのセグメントでモデルが他のセグメントよりも優れたパフォーマンスを発揮しているかを理解したい場合。これは、本番環境でこのモデルを使用する範囲を決定するための情報となります。
  • モデルが不十分なパフォーマンスを発揮している領域を特定し、今後の開発努力に焦点を当てることができるようにしたい場合。
  • 評価データの保護されたグループに対してモデルがバイアスがかかっていないことを確認したい場合。

この場合、平均住宅年齢が5歳未満または30歳以上の場合にモデルがどのように機能するかを調査します。

アクション: 評価サブセットを追加を選択し、housing_median_age フィールドを選択します。これは数値フィールドであるため、使用する定量的なバケティング戦略を定義できます。この例では、範囲カットオフを使用し、バケットに 530 を設定します。アクション: サブセット設定を保存します。

サブセットバケットの設定。

このサブセット設定では、各評価データセットでモデルを評価するために、データの4つの異なるセットが評価されます。

  • 全体:これは、評価データセット全体です。
  • housing_median_age (<5): housing_median_age が5未満の評価データセットがフィルター処理されたものです。
  • housing_median_age (>= 5, < 30): housing_median_age が5以上30未満の評価データセットがフィルター処理されたものです。
  • housing_median_age (>= 30): housing_median_age が30以上の評価データセットがフィルター処理されたものです。

これにより、housing_median_age が異なるレコードでモデルが同様に動作しているかどうかを判断できます。

アクション: ページ上部右の設定を保存を選択して、設定を保存し、評価ダッシュボードに戻ります。これで、この目標に提出されたモデルは、評価に使用できる推論およびメトリクスデータセットを自動的に生成および構築します。

完全な評価サマリー。

3.3 メトリクスパイプラインの構築方法

メトリクスパイプラインを設定した後、このモデリング目標にモデル提出を行うたびに、推論データセットとメトリクスデータセットが作成され、開始されます。設定によっては、Foundry はこれらのデータセットを自動的に実行し、モデリング目標の評価ダッシュボードにメトリクスを追加することもできます。

この場合、既にモデルをこの目標に追加しているため、これらのデータセットの構築を手動で開始する必要があります。

アクション: 評価ダッシュボードの右上にある評価を構築を選択し、評価ダッシュボードとしてhousing_test_dataを選択し、評価するモデルとしてlinear_regression_modelを選択します。次に、構築をクリックして推論およびメトリクスの構築を開始します。

注意

評価パイプラインが作成されるまでに数分かかることがあります。構築アクションがアクティブになるまで待つ必要があります。

Palantir Foundry で評価パイプラインを構築する。

構築が開始されると、評価ダッシュボードから、評価ダッシュボードの右上にある最近のビルドのドロップダウンを見ることで、それらのビルドの進捗状況を確認できます。

注意

Foundry インスタンスの負荷によっては、評価パイプラインの実行に数分かかることがあります。

Palantir Foundry の評価ダッシュボードで評価ビルドを見る。

3.4 評価ダッシュボードでモデルを評価する方法

このチュートリアルに進む前に、評価ダッシュボードには、以前に作成した推論およびメトリクスデータセットのビルドが正常に完了している必要があります。メトリクスが完了すると、このモデリング目標に追加したすべてのモデルのメトリクスを表示し、比較することができます。これにより、モデリングプロジェクトのパフォーマンスの一元化された情報源が作成されます。

回帰評価ライブラリでは、評価ダッシュボードで使用できるメトリクスがいくつか生成されました。これらのメトリクスにより、モデルが未知のテストデータでラベル(国勢調査地区の中央住宅価格)をどれだけ正確に予測できるかを理解できます。

どのメトリクスを使用し、適切なパフォーマンスがどのようなものかは、プロジェクトによって異なります。これは通常、関係者との議論が必要ですが、この架空の例では、このモデルは十分にパフォーマンスが高いと言えます。このケースでは、平方根平均二乗誤差が 82639.10 であることは、平均してモデルの予測が未知のテストデータのラベルから $82,639.10 離れていることを意味します。

アクション: ページを更新し、左サイドバーのデータセットセレクターから**housing_test_dataset データセットを選択し、モデルセレクターからlinear_regression_model**を選択します。

Palantir Foundry で評価ダッシュボードを表示する。

評価ダッシュボードは、先ほど定義したサブセットによって、モデルのパフォーマンスがどのように変わるかも示してくれます。評価ダッシュボードのタブは、メトリクスを表示できる利用可能なサブセットグループを反映しています。この場合、平均住宅年齢が5歳から30歳の間でモデルが最もパフォーマンスが高いことがわかります。

アクション: 評価ダッシュボードの上部にあるhousing_median_ageタブを選択します。

Palantir Foundry でサブセット housing_median_age の評価ダッシュボードを表示する。

次のステップ

機械学習モデルを評価したので、このモデルを本番アプリケーションに統合できます。モデルの本番化チュートリアルを確認してください。