注: 以下の翻訳の正確性は検証されていません。AIPを利用して英語版の原文から機械的に翻訳されたものです。

PDFからテキストを抽出(OCRを使用)

対応している処理形式:バッチ

メディアセット内のPDFファイルにOCRを実行してテキストを抽出します。 式カテゴリ:メディア

宣言された引数

  • Languages to detect - ドキュメントで検出する言語。
    Set<Enum<Afrikaans, Albanian, Amharic, Arabic, Armenian, Assamese, Azerbaijani, Azerbaijani - Cyrilic, Basque, Belarusian, and more ...>>
  • Media reference - メディアセット内のPDFファイルへのメディア参照を含む行。
    Expression<Media reference>
  • OCR output format - 出力は文字列の配列になります。各エントリーはPDFの1ページに対応します。
    Enum<Text, hOCR>
  • Scripts to detect - ドキュメントで検出するスクリプト。
    Set<Enum<Arabic, Armenian, Bengali, Canadian Aboriginal, Cherokee, Cyrillic, Devanagari, Ethiopic, Fraktur, Georgian, and more ...>>
  • オプション End page - ページ範囲の終了、包括的。デフォルトではドキュメントの最後のページです。負のインデックスも対応しています。
    Expression<Integer>
  • オプション Start page - ページ範囲の開始、包括的。デフォルトではドキュメントの最初のページ(1)です。
    Expression<Integer>

出力タイプ: Array<String>

例 1 - 基本ケース

引数の値:

  • Languages to detect: {ENG}
  • Media reference: mediaReference
  • OCR output format: {TEXT}
  • Scripts to detect: {ARABIC}
  • End page: null
  • Start page: null
mediaReference:arrow_right:出力
{"mimeType":"PDF","reference":{"type":"mediaSetItem","mediaSetItem":{"mediaSetRid":"ri.mio.main.media-set.a", "mediaItemRid":"ri.mio.main.media-item.a"}}}[ このテキストはメディアセットから来ました。, これもメディアセットから来ました。 ]