注: 以下の翻訳の正確性は検証されていません。AIPを利用して英語版の原文から機械的に翻訳されたものです。
このページでは、マルチモーダルモデルと埋め込みモデルを処理するために使用できるいくつかの方法について説明します。
図に基づいて質問に答えたい場合、テキストインテキストアウトアーキテクチャを持つLLMは役に立ちません。GPT-4oおよびGPT-4o miniは画像入力を受け取ることができますが、他にも検討すべきオープンソースのオプションがあります。
このセットアップでは、最初のテキスト抽出を(セマンティック)検索するために使用し、その後で生のソースページ(画像)に対してマルチモーダルモデルを実行することができます。
英語で作業している場合、sentence-transformers docs ↗からMSMARCOモデルを試すことができます。
MS MARCO ↗は、Bing検索エンジンを使用して実際のユーザー検索クエリに基づいて作成された大規模な情報検索データセットのコレクションです。提供されるモデルは、キーワード、検索フレーズ、または質問が与えられた場合に、その検索クエリに関連するパッセージを見つけるためのセマンティック検索に使用できます。
これは、これらのモデルがクエリと関連するパッセージを埋め込み空間で近づけるように特別に訓練されたことを意味します。
この定義によれば、埋め込みモデルはユーザーのクエリから始まるセマンティック検索ワークフローに対して、一般的なOpenAI Adaよりも適しているかもしれません。クエリを直接埋め込み、それをチャンクの埋め込みと比較する場合、同じ概念を比較していないため、非対称の埋め込みモデルを使用してそのギャップを埋めることができます。あるいは、まずLLMを使用して仮想上のチャンクを生成することを試みることもできます。
一方、Adaはチャンクを出発点とし、類似のチャンクを検索する場合により適しています。ほとんどの非Ada埋め込みモデルは512トークンしかサポートしていないため、チャンク戦略をそれに応じて調整する必要があります。
たとえば、ドイツ語で作業している場合、GPTは現在その言語に対してまともなパフォーマンスを発揮する唯一のLLMです。ドイツ語のドキュメントコーパスがある場合、Adaを試してみてください。