注: 以下の翻訳の正確性は検証されていません。AIPを利用して英語版の原文から機械的に翻訳されたものです。
このチュートリアルに進む前に、モデリングプロジェクトのセットアップとモデルのトレーニングのチュートリアルを完了しておく必要があります。これらを完了すると、モデリング目標に少なくとも1つのモデルが登録されているはずです。
このチュートリアルのステップでは、モデルのパフォーマンスを評価し、モデリング目標でそのモデルをリリースします。このステップは推奨されますが、チュートリアルの後のステップには影響せず、後で戻ってくることができます。以下の内容が含まれます。
モデリング目標は、本番用モデルバージョンのカタログと考えることができます。目標にモデルを提出すると、そのカタログにモデルが追加され、特定のモデリング問題や目標の文脈での評価とレビューが可能になります。本番化されるかどうかに関わらず、各モデル提出は、モデリングプロジェクトの進捗を追跡し、プロジェクトスペースでの実験と学習の履歴を維持するのに役立ちます。
このチュートリアルのステップでは、特にアクションを実行する必要はありません。
モデリング目標にモデル候補が登録されたので、このモデリング目標内でモデルパフォーマンスメトリクスを生成することで、このモデルがどの程度のパフォーマンスを発揮するか評価できます。パフォーマンスメトリクスは、モデルがどの程度のパフォーマンスを発揮し、なぜモデルがそのように動作するのかを理解する上で重要なツールです。
このチュートリアルの目的は、ある数値(アメリカの国勢調査地区での平均住宅価格)を推定することなので、モデリング問題は回帰モデリング問題として分類されます。回帰モデリング問題では、平均絶対誤差や平方根平均二乗誤差などの評価メトリクスを見ることが一般的です。これらのメトリクスは、Foundry のデフォルトの回帰評価器に含まれているため、このライブラリを使用してモデル提出のパフォーマンスを評価します。
アクション: モデリング目標から、評価ダッシュボードの設定を選択します。
自動モデル評価は、モデルが標準化された方法で評価されることを確認するための便利な方法です。標準化により、モデルの比較が一貫して行われ、どのモデルが本番環境で使用するのに最適かを確信を持って選択できます。
評価パイプライン管理が有効になっている場合、Foundry はモデル提出と評価データセットの組み合わせごとに1つの推論データセットを自動生成します。推論データセットとは、評価データセットに対してモデルの推論(予測の生成)を実行した結果です。評価データセットとは、ユーザーがモデルの標準化されたテストセットとして定義し、特徴量(予測の生成に使用される)とラベル(モデルの推論と基準となるラベルを比較するために使用される)の両方が必要です。
アクション: パイプライン管理を設定するには、編集を選択し、次のオプションを選択します。推論およびメトリクスパイプラインの生成とモデル提出時に自動的に推論およびメトリクスを実行。次に、保存をクリックしてパイプライン管理設定を確認します。
アクション: 評価データセットを設定するには、評価データセットを追加を選択し、モデルトレーニングのチュートリアルで作成した**housing_test_data
データセット**を評価データセットとして選択します。data
フォルダーを推論先およびメトリクス先として選択し、データセットとフォルダーの選択をクリックして選択を確認します。
評価ライブラリは、推論データセットを取得し、モデリング目標の評価ダッシュボードに追加される評価メトリクスを生成するために使用できる、Foundry ライブラリのパラメータ化可能な部分です。Foundry には、回帰および二項分類のデフォルトの評価ライブラリが用意されていますが、特定のモデリング問題に対してカスタム評価ライブラリを作成することも可能です。
このモデリング目標では、すべてのモデルが評価スコアを一貫して生成するようにします。このモデリング目標では、すべてのモデルが float
型の prediction
という名前の推論列を生成することを期待しています。
アクション: 評価ライブラリの選択を選択し、回帰デフォルトライブラリを選択します。推論フィールドを float
型の prediction
に設定し、実際のフィールド(推定しようとするプロパティ)を median_house_value
に設定し、ヒストグラムビンは空のままにします。保存をクリックして評価ライブラリの設定を保存します。
評価サブセットの設定は、モデル評価のオプションのステップであり、評価データの特定の部分に対して独立してメトリクスを生成することができます。これらのメトリクスは、評価ダッシュボードで別々に分析することができます。
評価サブセットを有効にしたい場合は、以下のような場合です。
この場合、平均住宅年齢が5歳未満または30歳以上の場合にモデルがどのように機能するかを調査します。
アクション: 評価サブセットを追加を選択し、housing_median_age
フィールドを選択します。これは数値フィールドであるため、使用する定量的なバケティング戦略を定義できます。この例では、範囲カットオフを使用し、バケットに 5
と 30
を設定します。アクション: サブセット設定を保存します。
このサブセット設定では、各評価データセットでモデルを評価するために、データの4つの異なるセットが評価されます。
全体
:これは、評価データセット全体です。housing_median_age (<5)
: housing_median_age
が5未満の評価データセットがフィルター処理されたものです。housing_median_age (>= 5, < 30)
: housing_median_age
が5以上30未満の評価データセットがフィルター処理されたものです。housing_median_age (>= 30)
: housing_median_age
が30以上の評価データセットがフィルター処理されたものです。これにより、housing_median_age
が異なるレコードでモデルが同様に動作しているかどうかを判断できます。
アクション: ページ上部右の設定を保存を選択して、設定を保存し、評価ダッシュボードに戻ります。これで、この目標に提出されたモデルは、評価に使用できる推論およびメトリクスデータセットを自動的に生成および構築します。
メトリクスパイプラインを設定した後、このモデリング目標にモデル提出を行うたびに、推論データセットとメトリクスデータセットが作成され、開始されます。設定によっては、Foundry はこれらのデータセットを自動的に実行し、モデリング目標の評価ダッシュボードにメトリクスを追加することもできます。
この場合、既にモデルをこの目標に追加しているため、これらのデータセットの構築を手動で開始する必要があります。
アクション: 評価ダッシュボードの右上にある評価を構築を選択し、評価ダッシュボードとしてhousing_test_dataを選択し、評価するモデルとしてlinear_regression_modelを選択します。次に、構築をクリックして推論およびメトリクスの構築を開始します。
評価パイプラインが作成されるまでに数分かかることがあります。構築アクションがアクティブになるまで待つ必要があります。
構築が開始されると、評価ダッシュボードから、評価ダッシュボードの右上にある最近のビルドのドロップダウンを見ることで、それらのビルドの進捗状況を確認できます。
Foundry インスタンスの負荷によっては、評価パイプラインの実行に数分かかることがあります。
このチュートリアルに進む前に、評価ダッシュボードには、以前に作成した推論およびメトリクスデータセットのビルドが正常に完了している必要があります。メトリクスが完了すると、このモデリング目標に追加したすべてのモデルのメトリクスを表示し、比較することができます。これにより、モデリングプロジェクトのパフォーマンスの一元化された情報源が作成されます。
回帰評価ライブラリでは、評価ダッシュボードで使用できるメトリクスがいくつか生成されました。これらのメトリクスにより、モデルが未知のテストデータでラベル(国勢調査地区の中央住宅価格)をどれだけ正確に予測できるかを理解できます。
どのメトリクスを使用し、適切なパフォーマンスがどのようなものかは、プロジェクトによって異なります。これは通常、関係者との議論が必要ですが、この架空の例では、このモデルは十分にパフォーマンスが高いと言えます。このケースでは、平方根平均二乗誤差が 82639.10 であることは、平均してモデルの予測が未知のテストデータのラベルから $82,639.10 離れていることを意味します。
アクション: ページを更新し、左サイドバーのデータセットセレクターから**housing_test_dataset
データセットを選択し、モデルセレクターからlinear_regression_model**を選択します。
評価ダッシュボードは、先ほど定義したサブセットによって、モデルのパフォーマンスがどのように変わるかも示してくれます。評価ダッシュボードのタブは、メトリクスを表示できる利用可能なサブセットグループを反映しています。この場合、平均住宅年齢が5歳から30歳の間でモデルが最もパフォーマンスが高いことがわかります。
アクション: 評価ダッシュボードの上部にあるhousing_median_ageタブを選択します。
機械学習モデルを評価したので、このモデルを本番アプリケーションに統合できます。モデルの本番化チュートリアルを確認してください。