Warning

注: 以下の翻訳の正確性は検証されていません。AIPを利用して英語版の原文から機械的に翻訳されたものです。

新しい言語モデルのサポートを追加する

ノーコード言語モデルに加えて、Foundry は、Hugging Face ↗spaCy ↗ などの人気のある言語モデルフレームワークとの統合をユーザーに提供しています。Conda や Pip を通じて利用可能な Python フレームワークは、Foundry で利用できます。ただし、多くのフレームワークが事前に訓練されたモデル、コーパス、またはインターネットからの他の設定をダウンロードするため、Foundry 内で完全に機能するために追加の手順が必要になることがよくあります。これは、デフォルトで、ユーザーが作成した Python コードへのパブリックインターネットへのアクセスを拒否する Foundry のセキュリティアーキテクチャの結果です。必要な追加手順は、言語モデルフレームワークの詳細によって異なります。

Hugging Face

ノーコード言語モデル として利用できない Hugging Face 言語モデルのサポートを追加するには、2つの方法があります。

  1. モデルファイルを生のデータセットとしてインポートする
  2. Hugging Face のドメインを許可リストに追加する

モデルファイルをデータセットとしてインポートする

Hugging Face モデルハブから任意のモデルをデータセットとしてインポートできます。そのデータセットは、コードリポジトリやコードワークスペースで使用できます。

まず、Hugging Face からモデルファイルをダウンロード ↗してください。次に、モデルをスキーマレスデータセットとしてアップロードし、ファイルを Foundry に取り込みます。これらのファイルは、フロントエンドのアップロード(New > Dataset > Import > Select all files)を通じて、またはモデルファイルがプライベートネットワーク内の共有ドライブに保存されている場合は、データ接続の同期を通じてアップロードできます。

インポートデータセットには、Hugging Face のモデル詳細の Files and versions タブからすべてのファイルが含まれている必要があります。ただし、バイナリモデルファイルは 1 つだけ必要です(例:pytorch_model.bin または tf_model.h5)。ほとんどの場合、バイナリモデルファイルとして PyTorch モデルを使用することをお勧めします。

モデルファイルがデータセットに格納されると、そのデータセットを変換の入力として使用できます。モデルのサイズによっては、モデルをメモリにロードするために Spark プロファイルDRIVER_MEMORY_MEDIUM を指定する必要があるかもしれません。以下のコードでは、foundry-huggingface-adapters のユーティリティを使用しています。

Hugging Face のドメインを許可リストに追加

別の方法として、Foundry エンロールメントのネットワーク送信ポリシーに関連する Hugging Face のドメインを許可リストに追加できます。許可リストに追加する必要のある関連ドメインは https://huggingface.co ↗https://cdn-lfs.huggingface.co ↗ です。ネットワーク送信設定の詳細については、Foundry 管理ドキュメントを参照してください。

さらに、Hugging Face からモデルをロードするコードリポジトリには、transforms-external-systems ライブラリが追加され、新しく作成された送信ポリシーを使用するように適切に設定されている必要があります。設定が完了すると、オープンソースの言語モデルを Python トランスフォームでロードできます。

エラー PermissionError: [Errno 13] Permission denied: '/.cache' が表示された場合は、以下の例に示すように、モデルの読み込み時にキャッシュディレクトリを指定する必要があります。