最近在做智能客服的时候需要使用到语音识别,所以了解和对比了各家平台的语音识别对比和分析!
1、语音听写即在线音识别查看Demo
把语音(≤60秒)转换成对应的文字信息,让机器能够“听懂”人类语言,相当于给机器安装上“耳朵”,使其具备“能听”的功能
- 可以识别多种方言,识别率高
- 支持Android,iOS,Windows,Java,Linux
2、语音转写即长语音识别查看Demo
语音转写(Long Form ASR)基于深度全序列卷积神经网络,将长段音频(5小时以内)数据转换成文本数据,为信息处理和数据挖掘提供基础
- 支持标准版/电话专用版,可以单声道&多声道,返回json格式
- 价格范围为4.9~9.9元/小时,提供5小时免费使用
3、实时语音转写查看Demo
实时语音转写(Real-time ASR)基于深度全序列卷积神经网络框架,通过 WebSocket 协议,建立应用与语言转写核心引擎的长连接,将音频流数据实时转换成文字流数据结果
- WebSocket形式输入PCM实时音频流,导出json格式数据
- 价格为2万元/路/年,新用户免费限时使用。
文档地址:https://doc.xfyun.cn/
阿里云语音识别为智能语音交互2.0,价格有免费和付费版本,免费版本最大并发为10,商务专用版 最大为200/100两个并发,也可以按量付费。参考阿里语音识别报价
- 电联客服,告知每小时价格为3.5,超过900小时为3块,每条线路分开计时,即100条线路每天打8小时为800小时,需要支付2800元RMB
1、录音文件识别即长语音识别
目前未上架,官方提供了排期
2、实时语音识别
对长时间的语音数据流进行识别,适用于会议演讲、视频直播等长时间不间断识别的场景。支持PCM、OPU音频编码格式,支持,,,;流程为先推送申请指令,然后实时传递语音流,然后发送结束指令。
3、一句话识别
对一分钟内的短语音进行识别,适用于对话聊天,控制口令等较短的语音识别场景。支持音频编码格式:PCM、OPUS、OPU,支持,,,语言。其实是API模式,所有语言都支持。
百度语音目前只支持语音识别,语音合成和语音唤醒,支持三种格式,时长为60秒以内,价格为完全免费,调用量限制为无限制,文档地址百度语音
1、离线语音识别
百度离线语音识别目前只支持Android和IOS,Android 平台的一体化离在线语音识别解决方案,以JAR包 + SO库的形式发布。IOS移动设备的离在线语音识别解决方案,以静态库方式提供。
2、在线语音识别
通过API格式调用,支持,,,,,,,语言,其实是API模式,所有开发语言都支持
- 支持普通话,英语,粤语,四川话,普通话远场
目前价格需要手动提交申请然后会给你推送报价,不对外提供报价(客服电话告诉我的),文档地址腾讯云语言识别
1、一句话识别即在线识别
识别60s内的短语音,当音频放在请求body中传输时整个请求大小不能超过1M,当音频以url方式传输时,音频时长不可超过60s。接口请求频率限制:20次/每秒
2、离线语音识别(RESTful API)
离线语音识别服务使用 RESTful API 识别语音文件,采用异步方式通知业务方全部文本结果。离线语音识别接口采用 HTTPS 协议,支持语音 URL 和本地语音文件两种请求方式。离线语音识别适用于多种标准语音格式的长段语音文件,通常应用于对识别结果返回时延要求不高的场景。目前支持的采样率为 8K 和 16K,仅支持中文。可以应用于客服语音记录质检、UGC 音频审核、会议语音记录转写和医生就诊录音转写等场景。
- 识别分为推送和获取识别结果两个步骤
- 支持长语音识别
目前来看科大讯飞的产品比较完善,但是相比收费也是最高的,其次阿里相对比较完善,不过要线上使用相比价格还是比较高的,百度完全免费,不过只支持60秒以内识别,其次腾讯只支持两种模式识别。相比之下我在智能通话中会使用科大和阿里的在线识别,其次在语音质检过程中我会使用百度的识别,因为一般录音文件少于60秒(语音告知),如果超过部分可以提供剪裁!
原创文章,转载请注明 :科大讯飞/百度/阿里/腾讯(BAT)智能语音识别(ASR)性能对比选择预计价格分享 - pytorch中文网
原文出处: https://ptorch.com/news/192.html