实时语音识别-百度智能云

专用API

【更新时间: 2024.06.25】 WebSocket 是基于TCP的全双工协议，即建立连接后通讯双方都可以不断发送数据。 WebSocket 协议由rfc6455定义，下面介绍常见WebSocket 库的调用流程及参数一般需要各编程语言的W...

调用时长后付费（3 元/小时）（支持套餐）去服务商官网采购>

浏览次数

采购人数

试用次数

SLA: N/A

响应: N/A

适用于个人&企业

书签名称

确定

相似API

Text to Speech

125

使用该API可以将任何文字转语音，文字到语音使机器和应用程序能够说话。文本转语音支持多种语言，文本到语音实现语音生成。

MicrosoftAzure智能无广告位置搜寻

Microsoft Azure的一项人工智能服务，为您的用户提供安全、无广告的位置搜索，显示来自网络结果、图像、本地企业、新闻和图像的相关信息照片。

Amazon 语音转文本-Transcribe

Amazon Transcribe 使用一种称为自动语音识别 (ASR) 的深度学习过程，快速准确地将语音转换为文本。

API详情
定价
使用指南
常见 FAQ
关于我们
相关推荐

产品介绍

什么是百度智能云的实时语音识别?

实时语音识别是一种先进的技术，能够在语音被说出的同时迅速将其转换为文字。它基于Deep Peak2端到端的建模方法，通过超过10万小时的训练数据和多采样率、多场景的声学模型，实现高精度的语音识别能力。特别是针对近场中文普通话，其识别准确率可达到98%。该技术不仅支持普通话及带轻微口音的中文，还支持英文的识别。通过使用大规模数据集训练的语言模型，它可以智能纠错并根据语音内容理解与停顿情况自动添加适当的标点符号，如句号、感叹号、问号等。实时语音识别服务可以通过WebSocket API或Android、iOS、Linux SDK等多种调用方式进行接入，适应多种操作系统和设备。

什么是百度智能云的实时语音识别接口？

由服务使用方的应用程序发起，以Restful风格为主、通过公网HTTP协议调用百度智能云的实时语音识别，从而实现程序的自动化交互，提高服务效率。

百度智能云的实时语音识别有哪些核心功能？


技术领先识别准确基于Deep Peak2端到端建模，超过10万小时数据训练，多采样率多场景声学建模，近场中文普通话识别准确率达98%	多语种识别支持普通话和略带口音的中文识别；支持英文识别	智能语言处理使用大规模数据集训练语言模型，对识别中间结果进行智能纠错，并根据语音的内容理解和停顿智能匹配合适的标点符号，。！？


多种调用方式支持WebSocket API，支持Android、iOS、Linux SDK，可以在多种操作系统、多种设备终端上调用，快速上手，简单易用	毫秒级实时识别音频流首包响应时间毫秒级，并实时展示中间文字结果，快速识别音频流	文字识别结果支持时间戳识别返回的文字结果带有时间戳，展示VAD切分句子开始和结束时间，方便进行功能开发

百度智能云的实时语音识别的核心优势是什么？


识别效果领先基于Deep Peak2端到端建模，多采样率多场景声学建模，近场中文普通话识别准确率达98%	支持多设备终端支持WebSocket API方式、Android、iOS、Linux SDK方式调用，可以适用于多种操作系统、多设备终端均可使用


服务稳定高效企业级稳定服务保障，专有集群承载大流量并发，高效灵活，服务稳定	模型自助优化中文普通话模型可在语音自训练平台上零代码自助训练，上传文本语料即可有效提升业务词汇的识别准确率5-25%

在哪些场景会用到百度智能云的实时语音识别？

1.演讲字幕同屏

大会演讲可以在屏幕上实时展示嘉宾演讲字幕，逐字展示并智能纠错

2.视频直播字幕

直播新玩法，主播说话可以直接将说话内容实时转写为字幕展示在屏幕上，或者可进行二次字幕编辑

3.视频直播字幕

直播新玩法，主播说话可以直接将说话内容实时转写为字幕展示在屏幕上，或者可进行二次字幕编辑

产品价格

使用指南

三步完成账号的基本注册与认证：

1：点击进入控制台，选择需要使用的AI服务项。若为未登录状态，将跳转至登录界面，请您使用百度账号登录。如还未持有百度账户，可以点击此处注册百度账号。

2：首次使用，登录后将会进入开发者认证页面，请填写相关信息完成开发者认证。注：(如您之前已经是百度云用户或百度开发者中心用户，此步可略过。)

3：通过控制台左侧导航，选择语音技术，进入语音技术的控制面板，进行相关操作。

1.领取免费额度

新用户使用语音技术可以在控制台领取相应接口的免费测试额度进行接口调用，免费额度有效期自领取成功之日开始计算，有效期截止后，免费调用额度清零。详情可点击此处查看语音识别免费额度 | 语音合成免费额度 | 呼叫中心语音免费额度。

2.创建应用

您需要创建应用才可正式调用语音技术能力，应用是您调用服务的基本操作单元，您可以基于应用创建成功后获取的API Key及Secret Key，进行接口调用操作，及相关配置。您可按照下图所示的操作流程，完成创建操作。

应用名称： 用于标识您所创建的应用的名称，支持中英文、数字、下划线及中横线，此名称一经创建完毕，不可修改。

接口选择： 每个应用可以勾选业务所需的所有AI服务的接口权限（仅可勾选具备免费试用权限的接口能力），语音技术下全部接口已默认勾选，创建应用完毕，此应用即具备了所勾选服务的调用权限。

语音包名：如果您需要使用语音技术SDK服务（iOS/Android），需要绑定包名信息，以便生成授权License。

应用归属：可选择个人使用或公司使用服务，若为公司使用，可与专属商务经理沟通，获取专业的售前支持。

应用描述： 对此应用的业务场景进行描述。

3.获取密钥

在您创建完毕应用后，平台将会分配给您此应用的相关凭证，主要为AppID、API Key、Secret Key。以上三个信息是您应用实际开发的主要凭证，请您妥善保管。下图为示例内容：

4.生成签名

您需要使用创建应用所分配到的AppID、API Key及Secret Key，进行Access Token（用户身份验证和授权的凭证）的生成，方法详见 Access Token获取，我们为您准备了几种常见语言的请求示例代码。

温馨提示：Access Token的有效期为30天（以秒为单位），请您集成时注意在程序中定期请求新的token。

5.启动开发

目前语音技术主要有两种方式使用：API与SDK，您可以选择各产品的文档，查看具体使用方法及参数。详情可点击此处查看语音识别导览 | 语音合成导览 | 呼叫中心语音导览。

产品问答

语音识别结果与音频内容不匹配？

语音识别返回结果与音频内容不匹配，例如：“嗨嗨嗨”、“嗯嗯嗯嗯嗯”、“什么”等错误返回。解决方法：排查音频采样率、声道、格式等参数是否符合接口规范。如与要求不符，需要用工具对音频进行转码，转码工具跳转。

3300错误码怎么办？

语音识别api使用的是HTTP POST方法， BODY里直接放置json， Content-Type头部为 application/json。并非常见的浏览器表单请求（application/x-www-form-urlencoded或者multipart/x-www-form-urlencoded）。必填字段：format rate channel cuid token cuid token cuid token cuid token，请勿漏填。此外 (speech, len) 及 (url, callback) 这两组参数必须二选一，如果都填，默认处理第一组。必填字段如format rate channel cuid token，请勿漏填。此外 (speech, len) 及 (url, callback) 这两组参数必须二选一，如果都填，默认处理第一种，并确认音频时长截取为60s以下。语音识别api使用的是HTTP POST方法， BODY里直接放置json， Content-Type头部为 application/json。并非常见的浏览器表单请求（application/x-www-form-urlencoded或者multipart/x-www-form-urlencoded）。必填字段：format rate channel cuid token cuid token cuid token cuid token，请勿漏填。此外 (speech, len) 及 (url, callback) 这两组参数必须二选一，如果都填，默认处理第一组。必填字段如format rate channel cuid token，请勿漏填。此外 (speech, len) 及 (url, callback) 这两组参数必须二选一，如果都填，默认处理第一种，并确认音频时长截取为60s以下。

行业与场景限制

根据工信部《综合整治骚扰电话专项行动方案》、《关于推进综合整治骚扰电话专项行动的工作方案》，相关能力不得用于商业营销类、恶意骚扰类和违法犯罪类骚扰电话类场景，也不支持在贷款、理财、信用卡、股票、基金、债券、保险、售房租房、医疗机构、保健食品、人力资源服务、旅游等场景的骚扰电话营销行为。

商务合作的流程是怎样的？

请在Speech官网底部点击“商务合作”，详细描述您的需求。或者在百度云提交工单申请合作。请在Speech官网底部点击“商务合作”，详细描述您的需求。或者在百度云提交工单申请合作。

离线可以支持识别任意词识别(听写识别)吗？

我们推荐使用在线识别，离线识别仅支持命令词识别。如果您有强烈、明确的离线任意词识别的场景，请详细描述您的需求，在官网底部点击“商务合作”，我们会有专人联系。

觉得识别不准确怎么办？

请对类似的语音做多次尝试，并整理录音文件、识别的日志（带sn）、期望的识别结果以及实际的识别结果文件，在QQ群或通过百度云工单提交给我们。请对类似的语音做多次尝试，并整理录音文件、识别的日志（带sn）、期望的识别结果以及实际的识别结果文件，在QQ群或通过百度云工单提交给我们。

关于我们

北京百度网讯科技有限公司

企业

北京百度网讯科技有限公司是一家领先的人工智能平台型公司，提供全面的云服务和解决方案。公司依托强大的云计算能力，结合百度大脑和大数据技术，为企业和开发者提供包括云服务器、对象存储、内容分发网络、人工智能、企业服务等在内的多样化产品和服务。通过智能化解决方案，百度智能云助力各行业实现数字化转型和智能化升级，推动产业创新和社会进步。

联系信息

服务时间： 7 * 24

电话号码： +86 10 5992 8888

网页在线客服：咨询