PDF からテキストを抽出 (OCR を使用)

対応バッチ: Batch

メディアセット内の PDF ファイルに対して OCR を実行し、テキストを抽出します。

式カテゴリ: Media

引数

検出する言語 - 入力ファイルで検出する言語。
Set<Enum<Afrikaans, Albanian, Amharic, Arabic, Armenian, Assamese, Azerbaijani, Azerbaijani - Cyrilic, Basque, Belarusian, さらに ...>>
メディアリファレンス - メディアセット内の PDF ファイルへのメディアリファレンスを含む列。
Expression<Media reference>
OCR 出力形式 - 出力は文字列の配列になります。各エントリは PDF の 1 ページに対応します。
Enum<Text, hOCR>
検出するスクリプト - 入力ファイルで検出するスクリプト。
Set<Enum<Arabic, Armenian, Bengali, Canadian Aboriginal, Cherokee, Cyrillic, Devanagari, Ethiopic, Fraktur, Georgian, さらに ...>>
オプション 終了ページ - ページ範囲の終了（含む）。デフォルトはドキュメントの最終ページです。負のインデックスをサポートしています。
Expression<Integer>
オプション エラーハンドリング - 処理に失敗した入力に対するパイプラインの動作を決定します。デフォルトは速やかに失敗します。
Enum<Fail fast, NULL on error>
オプション 開始ページ - ページ範囲の開始（含む）。デフォルトはドキュメントの最初のページ（1）です。
Expression<Integer>

出力タイプ: Array<String>

引数値:

mediaReference	出力
{"mimeType":"application/pdf","reference":{"type":"mediaSetItem","mediaSetItem":{"mediaSetRid":"ri.mio.main.media-set.a", "mediaItemRid":"ri.mio.main.media-item.a"}}}	[ This text came from the PDF document in the media set., So did this text. ]