语音识别提供的文件转写API,能够对常见的音频或音视频文件进行语音识别,并将结果返回给调用者。API提供丰富的输出选项,包括全文级文字、句子级文字、词和时间戳等。由于音视频文件的尺寸通常较大,文件传输和语音识别处理均需要时间,文件转写API通过异步调用方式来提交任务。开发者需要通过查询接口,在文件转写完成后获得语音识别结果。文件转写API支持批处理,用户可以单次上传最多100个文件URL,待所有URL转写完成后,用户可以一次性获取全部转写结果。音频格式支持范围
aac、amr、avi、flac、flv、m4a、mkv、mov、mp3、mp4、mpeg、ogg、opus、wav、webm、wma、wmv注意事项
在一个任务中对多个音频文件进行识别(即包含多个子任务)时,只要有一个子任务成功,整个任务的状态就会标记为SUCCEEDED。请通过查看每个子任务的sub_task_status和message来判断具体的任务状态。