文本转语音服务-Azure AI
专用API
服务商:
微软云平台
【更新时间: 2024.04.11】
Azure AI的文本转语音服务,这是一款强大的文本到语音应用。它能够将文本巧妙地转换为极其逼真的语音,实现文字转语音的智能语音生成,并且支持多种语言,让文本与语音之间的转换轻松而高效。
|
服务星级:6星
浏览次数
404
采购人数
13
试用次数
0
SLA: N/A
响应: N/A
适用于个人&企业
收藏
×
完成
取消
×
书签名称
确定
|
- API详情
- 使用指南
- 常见 FAQ
- 关于我们
- 相关推荐
什么是Azure AI的文本转语音服务?
Azure文本转语音服务,它可以将文本内容转换为自然发音的语音输出。这项服务允许用户通过自定义AI语音生成器来创造独特的品牌声音,并能够根据不同的应用场景选择合适的语音风格和情感语调。文本转语音可让应用程序、工具或设备将文本转换为类似于人类的合成语音。 文本转语音功能也称为语音合成。 使用类似于人类的现成预生成神经语音,或根据你的产品或品牌创建独特的自定义神经语音。
什么是Azure AI的文本转语音服务接口?
Azure AI的文本转语音服务有哪些核心功能?
- 实时语音合成: azure 文本转语音提供实时语音合成功能,使用语音SDK或REST API可以通过预生成的神经网络语音将文本转换为语音。azure 文本转语音使得应用程序、工具或设备能够实时生成流畅自然的语音输出,适用于聊天机器人、语音助手和车内导航系统等场景。
- 长音频的异步合成: 使用批量合成API,azure 文本转语音能够异步合成10分钟以上的长音频文件,例如有声书籍或讲座。与实时合成不同,这种合成方式不会立即返回响应,而是通过异步请求、轮询响应和下载合成音频的方式来实现。
- 预生成的神经网络语音:azure 文本转语音使用深度神经网络来生成语音,克服了传统语音合成在口语的重音和语调方面的局限性。韵律预测和语音合成同步发生,使输出听起来更流畅且自然。每个预生成的神经语音模型在24 kHz和高保真48 kHz下可用,适用于让聊天机器人和语音助手的互动更加自然和吸引人。
- 使用SSML改进文本转语音输出: 语音合成标记语言(SSML)是一种基于XML的标记语言,用于对文本转语音输出进行自定义。使用SSML,可以调整音调、添加暂停、改进发音、更改语速、调整音量,以及将多个语音归属到单个文档,从而提供更精细的语音控制
Azure AI的文本转语音服务的核心优势是什么?
- 高质量的神经网络语音合成:azure 文本转语音使用深度神经网络技术,提供清晰发音和自然韵律的语音合成,使计算机的声音与人类录音几乎无法区分。azure 文本转语音克服了传统语音合成在口语的重音和语调方面的局限性,提供了流畅自然的语音输出。
- 实时语音合成与长音频异步合成: 服务支持实时语音合成,允许通过语音SDK或REST API将文本转换为语音。此外,azure 文本转语音还提供长音频的异步合成功能,可以处理10分钟以上的文本转语音文件,如将电子书转换为有声读物。
- 预生成的神经网络语音: azure 文本转语音提供了一系列预生成的神经网络语音,这些语音在24 kHz和高保真48 kHz下可用,使得与聊天机器人和语音助手的互动更加自然和吸引人。
- 使用SSML改进文本转语音输出: 语音合成标记语言(SSML)允许用户对文本转语音输出进行自定义,包括调整音调、添加暂停、改进发音、更改语速和调整音量等,从而提供更精细的语音控制。
- 多语言和区域支持: azure 文本转语音支持超过400种神经语音,涵盖140多种语言和地区,适合应用在跨国业务、语言学习等需要多语言转换的场景。
- 易于集成和使用: 用户可以使用与非高清语音相同的SDK和REST API来生成高清语音,轻松集成到现有的应用程序中,提供了灵活的集成选项和简便的操作流程
在哪些场景会用到Azure AI的文本转语音服务?
1. 电子书和有声读物
想象一下,您拥有一本精彩的电子书,但您没有时间阅读,或者您只是想在旅途中放松身心,享受听书的乐趣。Azure 文本转语音服务可以将您的电子书或文档转换为自然流畅的语音,为您提供沉浸式的听书体验。您只需将电子书内容上传到 Azure 平台,选择合适的语音风格和语速,即可生成高质量的有声读物。这不仅方便了用户,也为出版社和作家提供了一种新的内容传播方式。
2. 语音助手和聊天机器人
AI 语音助手和聊天机器人正逐渐成为我们生活中不可或缺的一部分。它们可以帮助我们完成各种任务,例如查询信息、设定提醒、控制智能家居等。Azure 文本转语音服务可以为这些智能助手和聊天机器人提供自然流畅的语音响应,使它们更像一个真正的伙伴,与用户进行自然对话。例如,您可以使用 Azure 文本转语音服务为您的智能音箱或聊天机器人提供个性化的语音,使其更具亲切感和吸引力。
3. 视频和音频制作
在视频制作或播客中,使用合成语音可以增强内容的吸引力,并为观众提供更丰富的体验。例如,您可以使用 Azure 文本转语音服务为您的视频添加旁白,或为您的播客生成配音。您可以选择不同的语音风格和语速,以适应您的内容和目标受众。这可以节省您聘请专业配音演员的成本,并提高内容制作效率。
4. 界面朗读
对于视力受限的用户来说,使用电脑和手机等设备会带来很大的困难。Azure 文本转语音服务可以帮助他们通过语音读取屏幕上的信息,例如网页内容、电子邮件、文档等。这可以帮助他们更便捷地获取信息,并提高他们的生活质量。
5. 客户服务和呼叫中心
自动语音应答系统(IVR)和客户服务机器人可以为客户提供自动语音服务,例如,引导客户进行自助服务、提供常见问题解答等。Azure 文本转语音服务可以为这些系统提供高质量的语音,使其更具人性化,并提高客户满意度。
6. 教育和学习应用
在教育和学习应用中,Azure 文本转语音服务可以提供语音反馈和朗读功能,帮助用户更好地理解和学习。例如,在语言学习软件中,您可以使用 Azure 文本转语音服务为用户提供语音朗读和发音练习。在儿童教育应用中,您可以使用 Azure 文本转语音服务为孩子朗读故事和童谣,并提供语音互动。
文本转语音 REST API 开发使用指南
概述
文本转语音(TTS)服务允许开发者将文本转换为合成语音。本文档提供了如何使用文本转语音 REST API 的基本指南,包括获取语音列表和将文本转换为语音的步骤。
接口地址
获取语音列表
要获取特定区域的语音列表,使用以下终结点:
GET https://<YOUR_RESOURCE_REGION>.tts.speech.microsoft.com/cognitiveservices/voices/list
请将 <YOUR_RESOURCE_REGION>
替换为您所需的区域,例如 westus
。
将文本转换为语音
要将文本转换为语音,使用以下终结点:
POST https://<YOUR_RESOURCE_REGION>.tts.speech.microsoft.com/cognitiveservices/v1
同样,请将 <YOUR_RESOURCE_REGION>
替换为相应的区域。
身份验证
在使用文本转语音 REST API 之前,您需要进行身份验证。可以使用以下两种方式之一:
- 使用 Ocp-Apim-Subscription-Key:在请求中包含您的语音资源密钥。
- 使用 Bearer Token:通过向
issueToken
终结点请求获取访问令牌,并在后续请求中使用该令牌。
获取访问令牌
要获取访问令牌,请使用以下终结点:
POST https://<REGION_IDENTIFIER>.api.cognitive.microsoft.com/sts/v1.0/issueToken
将 <REGION_IDENTIFIER>
替换为与您的订阅区域相匹配的标识符。
区域和终结点
文本转语音服务支持多个区域。以下是一些可用的区域及其对应的终结点:
- 澳大利亚东部:
https://australiaeast.tts.speech.microsoft.com
- 巴西南部:
https://brazilsouth.tts.speech.microsoft.com
- 加拿大中部:
https://canadacentral.tts.speech.microsoft.com
- 美国东部:
https://eastus.tts.speech.microsoft.com
- 西欧:
https://westeurope.tts.speech.microsoft.com
确保选择与您的语音资源区域匹配的终结点。
音频输出格式
在请求中,您可以指定音频输出格式,支持的格式包括但不限于:
riff-24khz-16bit-mono-pcm
audio-24khz-192kbitrate-mono-mp3
ogg-24khz-16bit-mono-opus
注意事项
- 每个请求都需包含有效的身份验证信息。
- 对于长文本,生成的音频长度不能超过 10 分钟。
- 预生成的神经网络声音和定制声音的费用不同,具体请参考语音服务定价。
后续步骤
- 创建免费 Azure 帐户以开始使用服务。
- 了解神经网络定制声音的使用方法。
- 探索批处理合成的功能。
通过遵循这些指南,您可以有效地使用文本转语音 REST API 将文本转换为高质量的语音输出。
什么是 Azure?
Azure 云平台汇集的产品和云服务超过 200 种,旨在帮助你将新解决方案付诸实践,以便解决当今的难题,并创造未来。利用所选的工具和框架,在多个云中、在本地以及在边缘生成、运行和管理应用程序。
合作伙伴:
文本转语音 REST API 开发使用指南
概述
文本转语音(TTS)服务允许开发者将文本转换为合成语音。本文档提供了如何使用文本转语音 REST API 的基本指南,包括获取语音列表和将文本转换为语音的步骤。
接口地址
获取语音列表
要获取特定区域的语音列表,使用以下终结点:
GET https://<YOUR_RESOURCE_REGION>.tts.speech.microsoft.com/cognitiveservices/voices/list
请将 <YOUR_RESOURCE_REGION>
替换为您所需的区域,例如 westus
。
将文本转换为语音
要将文本转换为语音,使用以下终结点:
POST https://<YOUR_RESOURCE_REGION>.tts.speech.microsoft.com/cognitiveservices/v1
同样,请将 <YOUR_RESOURCE_REGION>
替换为相应的区域。
身份验证
在使用文本转语音 REST API 之前,您需要进行身份验证。可以使用以下两种方式之一:
- 使用 Ocp-Apim-Subscription-Key:在请求中包含您的语音资源密钥。
- 使用 Bearer Token:通过向
issueToken
终结点请求获取访问令牌,并在后续请求中使用该令牌。
获取访问令牌
要获取访问令牌,请使用以下终结点:
POST https://<REGION_IDENTIFIER>.api.cognitive.microsoft.com/sts/v1.0/issueToken
将 <REGION_IDENTIFIER>
替换为与您的订阅区域相匹配的标识符。
区域和终结点
文本转语音服务支持多个区域。以下是一些可用的区域及其对应的终结点:
- 澳大利亚东部:
https://australiaeast.tts.speech.microsoft.com
- 巴西南部:
https://brazilsouth.tts.speech.microsoft.com
- 加拿大中部:
https://canadacentral.tts.speech.microsoft.com
- 美国东部:
https://eastus.tts.speech.microsoft.com
- 西欧:
https://westeurope.tts.speech.microsoft.com
确保选择与您的语音资源区域匹配的终结点。
音频输出格式
在请求中,您可以指定音频输出格式,支持的格式包括但不限于:
riff-24khz-16bit-mono-pcm
audio-24khz-192kbitrate-mono-mp3
ogg-24khz-16bit-mono-opus
注意事项
- 每个请求都需包含有效的身份验证信息。
- 对于长文本,生成的音频长度不能超过 10 分钟。
- 预生成的神经网络声音和定制声音的费用不同,具体请参考语音服务定价。
后续步骤
- 创建免费 Azure 帐户以开始使用服务。
- 了解神经网络定制声音的使用方法。
- 探索批处理合成的功能。
通过遵循这些指南,您可以有效地使用文本转语音 REST API 将文本转换为高质量的语音输出。
什么是 Azure?
Azure 云平台汇集的产品和云服务超过 200 种,旨在帮助你将新解决方案付诸实践,以便解决当今的难题,并创造未来。利用所选的工具和框架,在多个云中、在本地以及在边缘生成、运行和管理应用程序。
合作伙伴: