讯飞api
首页
首页
  1. 音频转写
  • 基本介绍
  • 快速开始
    • 开发必读
    • 接口调用
    • 获取token令牌
      POST
  • 音频转写
    • 实时语音转写
    • 语音文件异步转写
      POST
    • 异步接收转写结果
      POST
  • 语音听写
    • 开启会话
      POST
    • 音频写入
      POST
    • 获取结果
      POST
    • 结束会话
      POST
  • 录音文件识别
    • 调用说明
    • 提交任务
      POST
    • 查询识别结果
      POST
  • ocr识别
    • 获取图像OCR结果
      POST
  • 附录
    • 附录1:错误码枚举
  1. 音频转写

实时语音转写

开发中
ws(wss)://[ip]:[port]/ast/v3

实时转写服务接口#

端点:ws(wss)://[ip]:[port]/tuling/ast/v3?token=[token]&traceId=[traceId]&bizId=[bizId]
示例:[ws://172.31.234.57:9990/ast/v3?token=bcd1874d26b54d7d8e045cefec1bf6f4&bizId=d6edf822acc94f9f9f1040335820d244&traceId=725e84bb6e2245f28f8fa35b9ffe0028]

1、请求参数示例#

{
  "audio": "音频base64",
  "hotWord":"热词,非必填。多个;分割,如:张三疯;李四"
}

2、数据传输#

📌
音频 buffer 字节数组,一般按4096字节提交,原则上总大小不要超过 16KB,建议提交至少 40ms 的语音。

3、返回实例#

 {
      "segId": 0,
      "bg": 140,
      "ed": 3230,
      "ei": 0,
      "ls": false,
      "metadata": "",
      "msgtype": "sentence,
      "sn": 1,
      "pa": 0,
      "vad": {
        "ws": [{
          "bg": 14,
          "ed": 323
        }]
      }
      "ws": [
        {
          "bg": 17,
          "cw": [{
          	  "rl":10001,  # 角色,rl为10001,表明该词开始是id为10001的说话人;
                                  # 引擎参数:wfep_param_nOnlineSpkdia_on 设置为0-关闭说话人分离,设置为1-开启实时转折点,设置为2-开启实时角色分离;
                                  # 转折:在转折点方案是某个词的rl字段标记为1,表示从该词发生转折。不发生转折的词上默认rl字段标记为0;
                                  # 角色分离:在角色分离方案是某个词的rl字段标记为id号,例如rl 标记为2,表示从该词开始是id为2的说话人,后面词上rl字段默认标记为0.直到某个词上标记为另一个id号,即为下一个说话人开始;
              "sc": "0.00",
              "sf": 0,
              "w": "你好",
              "wb": 17,
              "wc": "0.00",
              "we": 56,
              "wp": "n"
          }]
        },
          "bg": 57,
          "cw": [
            {
              "rl":0,
              "sc": "0.00",
              "sf": 0,
              "w": "兄弟",
              "wb": 57,
              "wc": "0.00",
              "we": 84,
              "wp": "n"
            }
          ]
        }
      ],
      "nameMapping":{"10001", "张三"}, #说话人id映射:nameMapping(id,name)
    }
名称类型说明
segIdInt段id
bgInt开始时间,单位ms 结果为sentence时必须
edInt结束时间,单位ms 结果为sentence时必须
eiInt暂未使用
lsBool最后结果标志,true或false
metadataString暂未使用
msgtypeString消息类型:sentence最终结果,Progressive为中间结果
snInt结果序号,结果为sentence时必须
vadVadArrayVad信息:ws句子信息,bg句子开始时间,ed句子结束时间,结果为sentence时必须
wsResultItem[]具体转写文本
ws.bgint词语开始时间(单位10ms)
ws.cwResultWordItem[]词语识别结果
nameMappingMap说话人id映射关系,转写结果中rl字段映射

4、demo(JAVA)#

引入依赖
 <dependency>
	<groupId>org.java-websocket</groupId>
	<artifactId>Java-WebSocket</artifactId>
	<version>1.5.3</version>
</dependency>

 <dependency>
        <groupId>com.alibaba</groupId>
        <artifactId>fastjson</artifactId>
        <version>2.0.7</version>
 </dependency>
语音转写调用

请求参数

Query 参数

修改于 2025-08-31 13:02:50
上一页
获取token令牌
下一页
语音文件异步转写
Built with