注: 以下の翻訳の正確性は検証されていません。AIPを利用して英語版の原文から機械的に翻訳されたものです。
このチュートリアルのステップでは、Foundryで機械学習プロジェクトを作成します。このステップは必須で、以下の内容をカバーします。
Foundryプロジェクトは、関連する作業を格納するためのフォルダー構造です。各機械学習プロジェクトに対して個別のFoundryプロジェクトを持つことをお勧めします。このプロジェクトには以下が必要です。
data
フォルダーmodels
フォルダーcode
フォルダー新しいプロジェクトを作成する権限がない場合は、既存のプロジェクトに新しいフォルダーを作成して、機械学習プロジェクトのルートディレクトリとして機能させることができます。
アクション: このチュートリアルのために新しいFoundryプロジェクトを作成し、上記のフォルダーを作成してください - 方法はこちら。新しいFoundryプロジェクトを作成できない場合は、既存のプロジェクト内に空のフォルダーを作成して、新しいプロジェクトのルートを模倣してください。
アクション: Foundryプロジェクトで、+New > Modeling Objective を選択します。モデリング目的は、解決しようとしている機械学習問題の名前に関連して命名する必要があります。この場合、「House Price Prediction Objective」という名前にします。
このチュートリアルでは、アメリカの人口調査区域での中央値の家価格を推定する機械学習モデルを構築します。
特徴データ(アメリカの人口調査区域に関する歴史的詳細)とラベル(その時点での人口調査区域の中央値の家価格)を取得し、特徴とラベルの関係を明らかにし、Foundryで再利用可能なモデルとしてその関係を保存します。将来、最新の特徴データ(アメリカの人口調査区域に関する詳細)があるが、最新のラベル(中央値の家価格)がない場合、人口調査区域の特徴データにモデルを適用して、その人口調査区域での家価格の推定値を見つけることができます。このタイプの機械学習プロジェクトは教師あり機械学習と呼ばれ、機械学習プロジェクトの最も一般的なタイプです。
Foundryでは、教師あり機械学習プロジェクトには2つのデータセットが必要です。
これらのデータセットは、データ接続からの本番ソースやオントロジーから取得されることがよくあります。ただし、このチュートリアルでは、CSVファイルをアップロードして、それらの本番ソースをシミュレートします。
アクション: ラベル付きのアメリカ住宅データソースをダウンロードし、data
フォルダーに housing_features_and_labels
としてアップロードします。ラベルなしのアメリカ人口調査データソースをダウンロードし、data
フォルダーに housing_inference_data
としてアップロードします。FoundryにCSVファイルをアップロードするには、フォルダー構造にドラッグしてください。このチュートリアルでは、構造化データセットとしてアップロードしてください。
Foundryでトレーニングされたモデルは、それらをトレーニングするために使用されたデータ、コード、および開発環境にリンクされます。これは、すべてのモデルがどのように生成されたかについての統治レコードを提供するとともに、歴史的な実験の詳細を記録および共有するために役立ちます。
機械学習モデルは、コードリポジトリアプリケーションでFoundryでトレーニングできます。
コードリポジトリアプリケーションは、データパイプラインと機械学習ロジックの作成のためのウェブベースの開発環境です。Foundryは、Model Training
テンプレートと呼ばれる機械学習用のテンプレートリポジトリを提供します。
コードリポジトリは、ローカルコードの反復処理に対してGitをサポートしていますが、Foundry内でビルドを実行するためにコミットされたコードが必要です。コードリポジトリアプリケーションは、本番および再現性のあるデータパイプラインおよび機械学習ロジックの作成に最適です。
Foundryで使用する既存のモデルがある場合は、次の方法で既存のモデルを統合できます。
また、Foundryは、Modeling Objectivesアプリケーションを通じてインポートできるオープンソースの言語モデルも提供しています。
このチュートリアルのステップには、必要なアクションはありません。
Foundryでは、機械学習プロジェクトはModeling Objectivesアプリケーションで管理されます。モデリング目的は、機械学習プロジェクトを管理するためのベストプラクティスを示唆することで、次のことが可能になります。
このチュートリアルでは、モデリング目的は、人口調査区域での中央値の家価格を予測することです。
アクション: 以前に作成した「House Price Prediction Objective」モデリング目的に移動します。ヘッダー部分のモデリング目的にプロジェクトのコンテキストを追加し、他のチームに問題を説明します。ヘッダーの右側にあるペンアイコンを選択して編集モードに入り、目的の要約と説明を追加します。説明欄はMarkdownに対応しています。下記の提案された内容の例です。
#### 目標:アメリカ全土の住宅価格の中央値を予測する予測モデルを構築する。
#### データ
このデータセットは、1990年の米国国勢調査におけるカリフォルニア州の回答から導出され、国勢調査ブロックグループごとに1行を使用しています。ブロックグループとは、米国国勢調査局がサンプルデータを公表する最小の地理単位で、通常は600人から3,000人の人口がいます。
ターゲット変数は、カリフォルニア州の地区の**median_house_value**(住宅価格の中央値)です。
#### 参考文献
Pace, R. Kelley, and Ronald Barry, "Sparse Spatial Autoregressions," Statistics and Probability Letters,
Volume 33, Number 3, May 5 1997, p. 291-297.
データはStatLibリポジトリから取得。 <http://lib.stat.cmu.edu/datasets/>
機械学習プロジェクトの構造化が完了したので、モデルの学習に移ります。コードリポジトリでモデルを学習する方法を学びましょう。