온톨로지FunctionsSemantic searchPDF 처리

본 번역은 검증되지 않았습니다. AIP를 통해 영문원문으로부터 번역되었습니다.

PDF 처리

이 페이지는 Pipeline Builder를 사용하여 PDF를 분석하여 시맨틱 검색을 위한 기본 가이드를 제공하며, Workshop 앱에서 정보를 제시하는 권장 사항을 포함합니다.

시맨틱 검색은 PDF와 함께 사용할 때 매우 강력한 도구이며, 특히 콘텐츠가 별도로 내장된 더 작은 "청크"로 분해되면 사용자와 워크플로가 다른 방법으로 접근하기 어려운 중요한 정보를 찾는 데 도움이 됩니다. 이는 PDF에 종종 간과되는 대량의 비구조화된 지식이 있을 때 특히 유용합니다.

사용하려면, Foundry에 PDF를 업로드하고, 텍스트를 추출하고, 동일한 텍스트를 청크로 나누고, 그 청크를 검색하고, 사용자를 위한 출처 cross-validation을 위해 해당 PDF를 렌더링하여 검색 결과를 표면화합니다.

PDF 내에서 검색하기 위해 시맨틱 검색 설정

PDF를 가져오고 PDF의 컨텐츠를 표면화하기 위한 시맨틱 검색을 설정하려면 아래에 기술된 단계를 따르십시오 :

  1. PDF를 미디어 세트로 가져오기
  2. Pipeline Builder에 미디어 세트 추가
  3. 미디어 출처 가져오기 보드를 사용합니다.

미디어 출처 가져오기 보드

  1. 텍스트 추출 보드를 사용합니다.

텍스트 추출 보드

  1. 청킹 전략을 따릅니다.
  2. 미디어 출처 속성을 가진 청크 오브젝트를 생성합니다.
  3. 시맨틱 검색 워크플로의 일부로 청크를 검색합니다.
  4. Workshop에서 PDF 보기 권한 보유 사용자 위젯을 사용하고, 설정 옵션을 참고합니다.