注: 以下の翻訳の正確性は検証されていません。AIPを利用して英語版の原文から機械的に翻訳されたものです。

マルチモーダルモデルと埋め込みモデルを処理する

このページでは、マルチモーダルモデルと埋め込みモデルを処理するために使用できるいくつかの方法について説明します。

マルチモーダルモデル

図に基づいて質問に答えたい場合、テキストインテキストアウトアーキテクチャを持つLLMは役に立ちません。GPT-4oおよびGPT-4o miniは画像入力を受け取ることができますが、他にも検討すべきオープンソースのオプションがあります。

Pix2Struct ↗: ドイツ語のテーブルの品質保証に関する初期テストでかなり良好な結果を示しました。huggingface ↗で試すことができます。
Microsoft UDOP (Universal document processing) ↗: オープンソースですが、huggingfaceでは利用できません。

このセットアップでは、最初のテキスト抽出を(セマンティック)検索するために使用し、その後で生のソースページ（画像）に対してマルチモーダルモデルを実行することができます。

埋め込みモデル

英語で作業している場合、sentence-transformers docs ↗からMSMARCOモデルを試すことができます。

MS MARCO ↗は、Bing検索エンジンを使用して実際のユーザー検索クエリに基づいて作成された大規模な情報検索データセットのコレクションです。提供されるモデルは、キーワード、検索フレーズ、または質問が与えられた場合に、その検索クエリに関連するパッセージを見つけるためのセマンティック検索に使用できます。

これは、これらのモデルがクエリと関連するパッセージを埋め込み空間で近づけるように特別に訓練されたことを意味します。

この定義によれば、埋め込みモデルはユーザーのクエリから始まるセマンティック検索ワークフローに対して、一般的なOpenAI Adaよりも適しているかもしれません。クエリを直接埋め込み、それをチャンクの埋め込みと比較する場合、同じ概念を比較していないため、非対称の埋め込みモデルを使用してそのギャップを埋めることができます。あるいは、まずLLMを使用して仮想上のチャンクを生成することを試みることもできます。

一方、Adaはチャンクを出発点とし、類似のチャンクを検索する場合により適しています。ほとんどの非Ada埋め込みモデルは512トークンしかサポートしていないため、チャンク戦略をそれに応じて調整する必要があります。

たとえば、ドイツ語で作業している場合、GPTは現在その言語に対してまともなパフォーマンスを発揮する唯一のLLMです。ドイツ語のドキュメントコーパスがある場合、Adaを試してみてください。