实时语音识别-百度智能云
专用API
服务商:
北京百度网讯科技有限公司
【更新时间: 2024.06.25】
WebSocket 是基于TCP的全双工协议,即建立连接后通讯双方都可以不断发送数据。
WebSocket 协议由rfc6455定义, 下面介绍常见WebSocket 库的调用流程及参数
一般需要各编程语言的W...
|
服务星级:2星
浏览次数
11
采购人数
0
试用次数
0
SLA: N/A
响应: N/A
适用于个人&企业
收藏
×
完成
取消
×
书签名称
确定
|
- API详情
- 定价
- 使用指南
- 常见 FAQ
- 关于我们
- 相关推荐
什么是百度智能云的实时语音识别?
实时语音识别是一种先进的技术,能够在语音被说出的同时迅速将其转换为文字。它基于Deep Peak2端到端的建模方法,通过超过10万小时的训练数据和多采样率、多场景的声学模型,实现高精度的语音识别能力。特别是针对近场中文普通话,其识别准确率可达到98%。该技术不仅支持普通话及带轻微口音的中文,还支持英文的识别。通过使用大规模数据集训练的语言模型,它可以智能纠错并根据语音内容理解与停顿情况自动添加适当的标点符号,如句号、感叹号、问号等。实时语音识别服务可以通过WebSocket API或Android、iOS、Linux SDK等多种调用方式进行接入,适应多种操作系统和设备。
什么是百度智能云的实时语音识别?
百度智能云的实时语音识别有哪些核心功能?
技术领先识别准确
基于Deep Peak2端到端建模,超过10万小时数据训练,多采样率多场景声学建模,近场中文普通话识别准确率达98%
|
多语种识别
支持普通话和略带口音的中文识别;支持英文识别
|
智能语言处理
使用大规模数据集训练语言模型,对识别中间结果进行智能纠错,并根据语音的内容理解和停顿智能匹配合适的标点符号,。!?
|
多种调用方式
支持WebSocket API,支持Android、iOS、Linux SDK,可以在多种操作系统、多种设备终端上调用,快速上手,简单易用
|
毫秒级实时识别音频流
首包响应时间毫秒级,并实时展示中间文字结果,快速识别音频流
|
文字识别结果支持时间戳
识别返回的文字结果带有时间戳,展示VAD切分句子开始和结束时间,方便进行功能开发
|
百度智能云的实时语音识别的核心优势是什么?
识别效果领先
基于Deep Peak2端到端建模,多采样率多场景声学建模,近场中文普通话识别准确率达98%
|
支持多设备终端
支持WebSocket API方式、Android、iOS、Linux SDK方式调用,可以适用于多种操作系统、多设备终端均可使用
|
服务稳定高效
企业级稳定服务保障,专有集群承载大流量并发,高效灵活,服务稳定
|
模型自助优化
中文普通话模型可在语音自训练平台上零代码自助训练,上传文本语料即可有效提升业务词汇的识别准确率5-25%
|
在哪些场景会用到百度智能云的实时语音识别?
三步完成账号的基本注册与认证:
1:点击进入控制台,选择需要使用的AI服务项。若为未登录状态,将跳转至登录界面,请您使用百度账号登录。如还未持有百度账户,可以点击此处注册百度账号。
2:首次使用,登录后将会进入开发者认证页面,请填写相关信息完成开发者认证。注:(如您之前已经是百度云用户或百度开发者中心用户,此步可略过。)
3:通过控制台左侧导航,选择语音技术,进入语音技术的控制面板,进行相关操作。
1.领取免费额度
新用户使用语音技术可以在控制台领取相应接口的免费测试额度进行接口调用,免费额度有效期自领取成功之日开始计算,有效期截止后,免费调用额度清零。详情可点击此处查看 语音识别免费额度 | 语音合成免费额度 | 呼叫中心语音免费额度。
2.创建应用
您需要创建应用才可正式调用语音技术能力,应用是您调用服务的基本操作单元,您可以基于应用创建成功后获取的API Key及Secret Key,进行接口调用操作,及相关配置。您可按照下图所示的操作流程,完成创建操作。
应用名称: 用于标识您所创建的应用的名称,支持中英文、数字、下划线及中横线,此名称一经创建完毕,不可修改。
接口选择: 每个应用可以勾选业务所需的所有AI服务的接口权限(仅可勾选具备免费试用权限的接口能力),语音技术下全部接口已默认勾选,创建应用完毕,此应用即具备了所勾选服务的调用权限。
语音包名:如果您需要使用语音技术SDK服务(iOS/Android),需要绑定包名信息,以便生成授权License。
应用归属:可选择个人使用或公司使用服务,若为公司使用,可与专属商务经理沟通,获取专业的售前支持。
应用描述: 对此应用的业务场景进行描述。
3.获取密钥
在您创建完毕应用后,平台将会分配给您此应用的相关凭证,主要为AppID、API Key、Secret Key。以上三个信息是您应用实际开发的主要凭证,请您妥善保管。下图为示例内容:
4.生成签名
您需要使用创建应用所分配到的AppID、API Key及Secret Key,进行Access Token(用户身份验证和授权的凭证)的生成,方法详见 Access Token获取,我们为您准备了几种常见语言的请求示例代码。
温馨提示:Access Token的有效期为30天(以秒为单位),请您集成时注意在程序中定期请求新的token。
5.启动开发
目前语音技术主要有两种方式使用:API与SDK,您可以选择各产品的文档,查看具体使用方法及参数。详情可点击此处查看 语音识别导览 | 语音合成导览 | 呼叫中心语音导览。
安全合规可信的云服务 |
||||
三步完成账号的基本注册与认证:
1:点击进入控制台,选择需要使用的AI服务项。若为未登录状态,将跳转至登录界面,请您使用百度账号登录。如还未持有百度账户,可以点击此处注册百度账号。
2:首次使用,登录后将会进入开发者认证页面,请填写相关信息完成开发者认证。注:(如您之前已经是百度云用户或百度开发者中心用户,此步可略过。)
3:通过控制台左侧导航,选择语音技术,进入语音技术的控制面板,进行相关操作。
1.领取免费额度
新用户使用语音技术可以在控制台领取相应接口的免费测试额度进行接口调用,免费额度有效期自领取成功之日开始计算,有效期截止后,免费调用额度清零。详情可点击此处查看 语音识别免费额度 | 语音合成免费额度 | 呼叫中心语音免费额度。
2.创建应用
您需要创建应用才可正式调用语音技术能力,应用是您调用服务的基本操作单元,您可以基于应用创建成功后获取的API Key及Secret Key,进行接口调用操作,及相关配置。您可按照下图所示的操作流程,完成创建操作。
应用名称: 用于标识您所创建的应用的名称,支持中英文、数字、下划线及中横线,此名称一经创建完毕,不可修改。
接口选择: 每个应用可以勾选业务所需的所有AI服务的接口权限(仅可勾选具备免费试用权限的接口能力),语音技术下全部接口已默认勾选,创建应用完毕,此应用即具备了所勾选服务的调用权限。
语音包名:如果您需要使用语音技术SDK服务(iOS/Android),需要绑定包名信息,以便生成授权License。
应用归属:可选择个人使用或公司使用服务,若为公司使用,可与专属商务经理沟通,获取专业的售前支持。
应用描述: 对此应用的业务场景进行描述。
3.获取密钥
在您创建完毕应用后,平台将会分配给您此应用的相关凭证,主要为AppID、API Key、Secret Key。以上三个信息是您应用实际开发的主要凭证,请您妥善保管。下图为示例内容:
4.生成签名
您需要使用创建应用所分配到的AppID、API Key及Secret Key,进行Access Token(用户身份验证和授权的凭证)的生成,方法详见 Access Token获取,我们为您准备了几种常见语言的请求示例代码。
温馨提示:Access Token的有效期为30天(以秒为单位),请您集成时注意在程序中定期请求新的token。
5.启动开发
目前语音技术主要有两种方式使用:API与SDK,您可以选择各产品的文档,查看具体使用方法及参数。详情可点击此处查看 语音识别导览 | 语音合成导览 | 呼叫中心语音导览。
安全合规可信的云服务 |
||||
|
|
|
|
|
|
|
|
|
|
|
|