注: 以下の翻訳の正確性は検証されていません。AIPを利用して英語版の原文から機械的に翻訳されたものです。

音声をテキストに書き起こす

対応: バッチ

音声ファイルをテキストに書き起こす。

表現カテゴリ: メディア

宣言された引数

  • メディアリファレンス - メディアセット内の音声ファイルへのメディアリファレンスを含む列。
    Expression<メディアリファレンス>
  • オプション 言語 - 入力ファイルで検出する言語。言語が提供されない場合、最初の30秒の音声から推測されます。
    Enum<アフリカーンス語、アルバニア語、アムハラ語、アラビア語、アルメニア語、アッサム語、アゼルバイジャン語、バシキール語、バスク語、ベラルーシ語、さらに...>
  • オプション 出力モード - 出力をシンプルな出力として、出力タイプパラメーターのタイプとして出力し、エラーはnullとして返すか、出力タイプとエラーをフィールドとして含む構造体として出力するかを選択します。
    Enum<シンプル、エラー付き>
  • オプション パフォーマンスモード - 書き起こしを実行する際に使用するパフォーマンスモード。モードが提供されない場合、より経済的なオプションをデフォルトとして使用します。
    Enum<より経済的、より高性能>

出力タイプ: String | Struct<ok, error>

例 1: 基本ケース

説明: 音声ファイルを書き起こす 引数値:

  • メディアリファレンス: mediaReference
  • 言語: null
  • 出力モード: null
  • パフォーマンスモード: null
mediaReferenceOutput
{"mimeType":"audio/mpeg","reference":{"type":"mediaSetItem","mediaSetItem":{"mediaSetRid":"ri.mio.main.media-set.a", "mediaItemRid":"ri.mio.main.media-item.a"}}}This is an example transcription from Whisper

例 2: Null ケース

引数値:

  • メディアリファレンス: Media Reference
  • 言語: null
  • 出力モード: null
  • パフォーマンスモード: null
mediaReferenceOutput
nullnull