注: 以下の翻訳の正確性は検証されていません。AIPを利用して英語版の原文から機械的に翻訳されたものです。

PDF からテキストを抽出 (OCR を使用)

対応バッチ: Batch

メディアセット内の PDF ファイルに対して OCR を実行し、テキストを抽出します。

式カテゴリ: Media

引数

  • 検出する言語 - 入力ファイルで検出する言語。
    Set<Enum<Afrikaans, Albanian, Amharic, Arabic, Armenian, Assamese, Azerbaijani, Azerbaijani - Cyrilic, Basque, Belarusian, さらに ...>>
  • メディアリファレンス - メディアセット内の PDF ファイルへのメディアリファレンスを含む列。
    Expression<Media reference>
  • OCR 出力形式 - 出力は文字列の配列になります。各エントリは PDF の 1 ページに対応します。
    Enum<Text, hOCR>
  • 検出するスクリプト - 入力ファイルで検出するスクリプト。
    Set<Enum<Arabic, Armenian, Bengali, Canadian Aboriginal, Cherokee, Cyrillic, Devanagari, Ethiopic, Fraktur, Georgian, さらに ...>>
  • オプション 終了ページ - ページ範囲の終了(含む)。デフォルトはドキュメントの最終ページです。負のインデックスをサポートしています。
    Expression<Integer>
  • オプション エラーハンドリング - 処理に失敗した入力に対するパイプラインの動作を決定します。デフォルトは速やかに失敗します。
    Enum<Fail fast, NULL on error>
  • オプション 開始ページ - ページ範囲の開始(含む)。デフォルトはドキュメントの最初のページ(1)です。
    Expression<Integer>

出力タイプ: Array<String>

例 1: 基本ケース

引数値:

  • 検出する言語: {ENG}
  • メディアリファレンス: mediaReference
  • OCR 出力形式: {TEXT}
  • 検出するスクリプト: {ARABIC}
  • 終了ページ: null
  • エラーハンドリング: FAIL_FAST
  • 開始ページ: null
mediaReference出力
{"mimeType":"application/pdf","reference":{"type":"mediaSetItem","mediaSetItem":{"mediaSetRid":"ri.mio.main.media-set.a", "mediaItemRid":"ri.mio.main.media-item.a"}}}[ This text came from the PDF document in the media set., So did this text. ]