オントロジーファンクションセマンティック検索PDF の取り扱い

注: 以下の翻訳の正確性は検証されていません。AIPを利用して英語版の原文から機械的に翻訳されたものです。

PDF の取り扱い

このページでは、Pipeline Builder を使って PDF の解析を行い、セマンティック検索を行うための基本的なガイドを提供し、Workshop アプリで情報を表示するための推奨方法を提案しています。

セマンティック検索は、特にコンテンツが個別に埋め込まれた小さな「チャンク」に分解された場合、PDF と一緒に使用すると非常に強力なツールです。これは、ユーザーやワークフローが、それ以外ではアクセスが難しい重要な情報を見つけるのに役立ちます。これは、PDF に含まれる構造化されていない知識の膨大な量が、しばしば見過ごされることを考えると特に役立ちます。

使い方は簡単で、Foundry に PDF をアップロードし、テキストを抽出し、同じテキストをチャンク化し、そのチャンクを検索し、ユーザーの真実の情報源として検証するために、検索結果を対応する PDF とともに表示します。

PDF 内のセマンティック検索を設定する

以下の手順に従って、PDF をインポートし、PDF からコンテンツを表示するためのセマンティック検索を設定してください。

  1. PDF をメディアセットとしてインポートする
  2. Pipeline Builder にメディアセットを追加する
  3. Get Media References ボードを使用します。

Get Media References board

  1. Text Extraction ボードを使用します。

Text Extraction board

  1. チャンキング 戦略に従います。
  2. メディアリファレンス プロパティを持つチャンクオブジェクトを作成します。
  3. セマンティック検索ワークフロー の一部としてチャンクを検索します。
  4. Workshop の PDF Viewer ウィジェット を使用し、設定オプションに注意してください。