注: 以下の翻訳の正確性は検証されていません。AIPを利用して英語版の原文から機械的に翻訳されたものです。

1. チュートリアル - Foundryで機械学習プロジェクトを設定する

このチュートリアルのステップでは、Foundryで機械学習プロジェクトを作成します。このステップは必須で、以下の内容をカバーします。

  1. 機械学習のためのFoundryプロジェクトの構造化
  2. 機械学習のデータ管理
  3. Foundryでの機械学習モデルの管理
  4. Foundryでの機械学習プロジェクトの管理

1.1 機械学習のためのFoundryプロジェクトの構造化方法

Foundryプロジェクトは、関連する作業を格納するためのフォルダー構造です。各機械学習プロジェクトに対して個別のFoundryプロジェクトを持つことをお勧めします。このプロジェクトには以下が必要です。

  • このプロジェクトで使用されるデータセットを格納する data フォルダー
  • このプロジェクトで使用されるモデルを格納する models フォルダー
  • このプロジェクトで使用されるモデルトレーニングロジックを格納する code フォルダー
  • および、本番モデルを管理およびデプロイするためのモデリング目的

新しいプロジェクトを作成する権限がない場合は、既存のプロジェクトに新しいフォルダーを作成して、機械学習プロジェクトのルートディレクトリとして機能させることができます。

アクション: このチュートリアルのために新しいFoundryプロジェクトを作成し、上記のフォルダーを作成してください - 方法はこちら。新しいFoundryプロジェクトを作成できない場合は、既存のプロジェクト内に空のフォルダーを作成して、新しいプロジェクトのルートを模倣してください。

アクション: Foundryプロジェクトで、+New > Modeling Objective を選択します。モデリング目的は、解決しようとしている機械学習問題の名前に関連して命名する必要があります。この場合、「House Price Prediction Objective」という名前にします。

新しいモデリング目的の作成例

完成したプロジェクト構造

モデリングプロジェクト構造例

1.2 機械学習のデータ管理方法

このチュートリアルでは、アメリカの人口調査区域での中央値の家価格を推定する機械学習モデルを構築します。

特徴データ(アメリカの人口調査区域に関する歴史的詳細)とラベル(その時点での人口調査区域の中央値の家価格)を取得し、特徴とラベルの関係を明らかにし、Foundryで再利用可能なモデルとしてその関係を保存します。将来、最新の特徴データ(アメリカの人口調査区域に関する詳細)があるが、最新のラベル(中央値の家価格)がない場合、人口調査区域の特徴データにモデルを適用して、その人口調査区域での家価格の推定値を見つけることができます。このタイプの機械学習プロジェクトは教師あり機械学習と呼ばれ、機械学習プロジェクトの最も一般的なタイプです。

Foundryでは、教師あり機械学習プロジェクトには2つのデータセットが必要です。

  1. モデルのトレーニングとテストに使用できるラベル付きデータセット
  2. 最新の特徴データを含むがラベルは含まないラベルなしデータセット。このデータセットにモデルを適用して、推論(ラベルの予測)を生成します。

これらのデータセットは、データ接続からの本番ソースオントロジーから取得されることがよくあります。ただし、このチュートリアルでは、CSVファイルをアップロードして、それらの本番ソースをシミュレートします。

アクション: ラベル付きのアメリカ住宅データソースをダウンロードし、dataフォルダーに housing_features_and_labelsとしてアップロードします。ラベルなしのアメリカ人口調査データソースをダウンロードし、dataフォルダーに housing_inference_dataとしてアップロードします。FoundryにCSVファイルをアップロードするには、フォルダー構造にドラッグしてください。このチュートリアルでは、構造化データセットとしてアップロードしてください。

完成したデータフォルダー

モデリングプロジェクトのデータフォルダー例

1.3 機械学習モデルの管理方法

Foundryでトレーニングされたモデルは、それらをトレーニングするために使用されたデータ、コード、および開発環境にリンクされます。これは、すべてのモデルがどのように生成されたかについての統治レコードを提供するとともに、歴史的な実験の詳細を記録および共有するために役立ちます。

機械学習モデルは、コードリポジトリアプリケーションでFoundryでトレーニングできます。

コードリポジトリ

コードリポジトリアプリケーションは、データパイプラインと機械学習ロジックの作成のためのウェブベースの開発環境です。Foundryは、Model Trainingテンプレートと呼ばれる機械学習用のテンプレートリポジトリを提供します。

コードリポジトリは、ローカルコードの反復処理に対してGitをサポートしていますが、Foundry内でビルドを実行するためにコミットされたコードが必要です。コードリポジトリアプリケーションは、本番および再現性のあるデータパイプラインおよび機械学習ロジックの作成に最適です。

既存のモデルを統合する

Foundryで使用する既存のモデルがある場合は、次の方法で既存のモデルを統合できます。

また、Foundryは、Modeling Objectivesアプリケーションを通じてインポートできるオープンソースの言語モデルも提供しています。

このチュートリアルのステップには、必要なアクションはありません。

1.4 機械学習プロジェクトの管理方法

Foundryでは、機械学習プロジェクトはModeling Objectivesアプリケーションで管理されます。モデリング目的は、機械学習プロジェクトを管理するためのベストプラクティスを示唆することで、次のことが可能になります。

  • 特定の問題を中心にした機械学習プロジェクト
  • 体系的なモデル評価のための標準の作成
  • 本番使用前のモデルのマルチパーティレビューを可能にする
  • 本番で使用されるすべてのモデルの歴史的記録を維持する
  • モデル開発をバッチパイプラインまたはリアルタイムのホストされた推論へのデプロイメントと統合する

このチュートリアルでは、モデリング目的は、人口調査区域での中央値の家価格を予測することです。

アクション: 以前に作成した「House Price Prediction Objective」モデリング目的に移動します。ヘッダー部分のモデリング目的にプロジェクトのコンテキストを追加し、他のチームに問題を説明します。ヘッダーの右側にあるペンアイコンを選択して編集モードに入り、目的の要約と説明を追加します。説明欄はMarkdownに対応しています。下記の提案された内容の例です。

#### 目標:アメリカ全土の住宅価格の中央値を予測する予測モデルを構築する。

#### データ

このデータセットは、1990年の米国国勢調査におけるカリフォルニア州の回答から導出され、国勢調査ブロックグループごとに1行を使用しています。ブロックグループとは、米国国勢調査局がサンプルデータを公表する最小の地理単位で、通常は600人から3,000人の人口がいます。

ターゲット変数は、カリフォルニア州の地区の**median_house_value**(住宅価格の中央値)です。

#### 参考文献

Pace, R. Kelley, and Ronald Barry, "Sparse Spatial Autoregressions," Statistics and Probability Letters, 
Volume 33, Number 3, May 5 1997, p. 291-297.

データはStatLibリポジトリから取得。 <http://lib.stat.cmu.edu/datasets/>

edit objective details

次のステップ

機械学習プロジェクトの構造化が完了したので、モデルの学習に移ります。コードリポジトリでモデルを学習する方法を学びましょう。