文本转语音服务-Azure AI
专用API
服务商:
微软云厂商
【更新时间: 2024.04.11】
Azure AI的文本转语音服务,这是一款强大的文本到语音应用。它能够将文本巧妙地转换为极其逼真的语音,实现文字转语音的智能语音生成,并且支持多种语言,让文本与语音之间的转换轻松而高效。
|
服务星级:6星
浏览次数
248
采购人数
5
试用次数
0
SLA: N/A
响应: N/A
适用于个人&企业
收藏
×
完成
取消
×
书签名称
确定
|
- API详情
- 使用指南
- 常见 FAQ
- 关于我们
- 相关推荐
什么是Azure AI的文本转语音服务?
Azure文本转语音服务,它可以将文本内容转换为自然发音的语音输出。这项服务允许用户通过自定义AI语音生成器来创造独特的品牌声音,并能够根据不同的应用场景选择合适的语音风格和情感语调。文本转语音可让应用程序、工具或设备将文本转换为类似于人类的合成语音。 文本转语音功能也称为语音合成。 使用类似于人类的现成预生成神经语音,或根据你的产品或品牌创建独特的自定义神经语音。
什么是Azure AI的文本转语音服务?
Azure AI的文本转语音服务有哪些核心功能?
1. 预生成的神经网络声音:提供高度自然的现成语音,用户可以创建 Azure 订阅和语音资源后,使用语音 SDK 或访问 Speech Studio 门户,并选择预生成的神经语音进行操作。
2. 自定义神经语音:用户可以通过自助服务创建自然的品牌语音并限制访问,只需创建 Azure 订阅和语音资源(使用 S0 层),并申请使用自定义语音功能。
3. 实时语音合成:使用语音 SDK 或 REST API 通过预生成的神经网络语音或自定义神经网络语音将文本转换为语音。
4. 长音频的异步合成:使用批量合成 API 异步合成 10 分钟以上的文本转语音文件,适用于有声书籍或讲座等场景。
5. 使用SSML改进文本转语音输出:语音合成标记语言 (SSML) 允许用户对文本转语音输出进行自定义,如调整音调、添加暂停等。
6. 视素:视素是观察到的语音中的关键姿态,通过在语音 SDK 中使用视素事件,可以生成面部动画数据,用于唇读交流、教育、娱乐等方面。
Azure AI的文本转语音服务的核心优势是什么?
1. 逼真的合成语音:启用与人类语音的语调和情感匹配的流畅、自然发音的文本转语音。
2. 可自定义文本讲述者语音:创建反映品牌标识的唯一 AI 语音生成器。
3. 精细文本转语音音频控制:通过轻松地调整语速、音调、发音和停顿等,为你的方案优化语音输出。
4. 灵活部署:在任何地方(在云中、本地或容器边缘)运行文本转语音。
5. 精准控制:微调合成的语音音频以适应你的方案。 使用 语音合成标记语言 (SSML) 或 音频内容创建工具来定义词典 和控制发音、音调、语速、停顿和语调等语音参数。
6. 灵活转换:在数据驻留的任何位置运行文本转语音。使用 容器生成针对强大的云功能和边缘区域优化的逼真语音合成应用程序。
在哪些场景会用到Azure AI的文本转语音服务?
1. 电子书和有声读物
想象一下,您拥有一本精彩的电子书,但您没有时间阅读,或者您只是想在旅途中放松身心,享受听书的乐趣。Azure 文本转语音服务可以将您的电子书或文档转换为自然流畅的语音,为您提供沉浸式的听书体验。您只需将电子书内容上传到 Azure 平台,选择合适的语音风格和语速,即可生成高质量的有声读物。这不仅方便了用户,也为出版社和作家提供了一种新的内容传播方式。
2. 语音助手和聊天机器人
AI 语音助手和聊天机器人正逐渐成为我们生活中不可或缺的一部分。它们可以帮助我们完成各种任务,例如查询信息、设定提醒、控制智能家居等。Azure 文本转语音服务可以为这些智能助手和聊天机器人提供自然流畅的语音响应,使它们更像一个真正的伙伴,与用户进行自然对话。例如,您可以使用 Azure 文本转语音服务为您的智能音箱或聊天机器人提供个性化的语音,使其更具亲切感和吸引力。
3. 视频和音频制作
在视频制作或播客中,使用合成语音可以增强内容的吸引力,并为观众提供更丰富的体验。例如,您可以使用 Azure 文本转语音服务为您的视频添加旁白,或为您的播客生成配音。您可以选择不同的语音风格和语速,以适应您的内容和目标受众。这可以节省您聘请专业配音演员的成本,并提高内容制作效率。
4. 界面朗读
对于视力受限的用户来说,使用电脑和手机等设备会带来很大的困难。Azure 文本转语音服务可以帮助他们通过语音读取屏幕上的信息,例如网页内容、电子邮件、文档等。这可以帮助他们更便捷地获取信息,并提高他们的生活质量。
5. 客户服务和呼叫中心
自动语音应答系统(IVR)和客户服务机器人可以为客户提供自动语音服务,例如,引导客户进行自助服务、提供常见问题解答等。Azure 文本转语音服务可以为这些系统提供高质量的语音,使其更具人性化,并提高客户满意度。
6. 教育和学习应用
在教育和学习应用中,Azure 文本转语音服务可以提供语音反馈和朗读功能,帮助用户更好地理解和学习。例如,在语言学习软件中,您可以使用 Azure 文本转语音服务为用户提供语音朗读和发音练习。在儿童教育应用中,您可以使用 Azure 文本转语音服务为孩子朗读故事和童谣,并提供语音互动。
文本转语音 REST API 开发使用指南
概述
文本转语音(TTS)服务允许开发者将文本转换为合成语音。本文档提供了如何使用文本转语音 REST API 的基本指南,包括获取语音列表和将文本转换为语音的步骤。
接口地址
获取语音列表
要获取特定区域的语音列表,使用以下终结点:
GET https://<YOUR_RESOURCE_REGION>.tts.speech.microsoft.com/cognitiveservices/voices/list
请将 <YOUR_RESOURCE_REGION>
替换为您所需的区域,例如 westus
。
将文本转换为语音
要将文本转换为语音,使用以下终结点:
POST https://<YOUR_RESOURCE_REGION>.tts.speech.microsoft.com/cognitiveservices/v1
同样,请将 <YOUR_RESOURCE_REGION>
替换为相应的区域。
身份验证
在使用文本转语音 REST API 之前,您需要进行身份验证。可以使用以下两种方式之一:
- 使用 Ocp-Apim-Subscription-Key:在请求中包含您的语音资源密钥。
- 使用 Bearer Token:通过向
issueToken
终结点请求获取访问令牌,并在后续请求中使用该令牌。
获取访问令牌
要获取访问令牌,请使用以下终结点:
POST https://<REGION_IDENTIFIER>.api.cognitive.microsoft.com/sts/v1.0/issueToken
将 <REGION_IDENTIFIER>
替换为与您的订阅区域相匹配的标识符。
区域和终结点
文本转语音服务支持多个区域。以下是一些可用的区域及其对应的终结点:
- 澳大利亚东部:
https://australiaeast.tts.speech.microsoft.com
- 巴西南部:
https://brazilsouth.tts.speech.microsoft.com
- 加拿大中部:
https://canadacentral.tts.speech.microsoft.com
- 美国东部:
https://eastus.tts.speech.microsoft.com
- 西欧:
https://westeurope.tts.speech.microsoft.com
确保选择与您的语音资源区域匹配的终结点。
音频输出格式
在请求中,您可以指定音频输出格式,支持的格式包括但不限于:
riff-24khz-16bit-mono-pcm
audio-24khz-192kbitrate-mono-mp3
ogg-24khz-16bit-mono-opus
注意事项
- 每个请求都需包含有效的身份验证信息。
- 对于长文本,生成的音频长度不能超过 10 分钟。
- 预生成的神经网络声音和定制声音的费用不同,具体请参考语音服务定价。
后续步骤
- 创建免费 Azure 帐户以开始使用服务。
- 了解神经网络定制声音的使用方法。
- 探索批处理合成的功能。
通过遵循这些指南,您可以有效地使用文本转语音 REST API 将文本转换为高质量的语音输出。
什么是 Azure?
Azure 云平台汇集的产品和云服务超过 200 种,旨在帮助你将新解决方案付诸实践,以便解决当今的难题,并创造未来。利用所选的工具和框架,在多个云中、在本地以及在边缘生成、运行和管理应用程序。
合作伙伴:
文本转语音 REST API 开发使用指南
概述
文本转语音(TTS)服务允许开发者将文本转换为合成语音。本文档提供了如何使用文本转语音 REST API 的基本指南,包括获取语音列表和将文本转换为语音的步骤。
接口地址
获取语音列表
要获取特定区域的语音列表,使用以下终结点:
GET https://<YOUR_RESOURCE_REGION>.tts.speech.microsoft.com/cognitiveservices/voices/list
请将 <YOUR_RESOURCE_REGION>
替换为您所需的区域,例如 westus
。
将文本转换为语音
要将文本转换为语音,使用以下终结点:
POST https://<YOUR_RESOURCE_REGION>.tts.speech.microsoft.com/cognitiveservices/v1
同样,请将 <YOUR_RESOURCE_REGION>
替换为相应的区域。
身份验证
在使用文本转语音 REST API 之前,您需要进行身份验证。可以使用以下两种方式之一:
- 使用 Ocp-Apim-Subscription-Key:在请求中包含您的语音资源密钥。
- 使用 Bearer Token:通过向
issueToken
终结点请求获取访问令牌,并在后续请求中使用该令牌。
获取访问令牌
要获取访问令牌,请使用以下终结点:
POST https://<REGION_IDENTIFIER>.api.cognitive.microsoft.com/sts/v1.0/issueToken
将 <REGION_IDENTIFIER>
替换为与您的订阅区域相匹配的标识符。
区域和终结点
文本转语音服务支持多个区域。以下是一些可用的区域及其对应的终结点:
- 澳大利亚东部:
https://australiaeast.tts.speech.microsoft.com
- 巴西南部:
https://brazilsouth.tts.speech.microsoft.com
- 加拿大中部:
https://canadacentral.tts.speech.microsoft.com
- 美国东部:
https://eastus.tts.speech.microsoft.com
- 西欧:
https://westeurope.tts.speech.microsoft.com
确保选择与您的语音资源区域匹配的终结点。
音频输出格式
在请求中,您可以指定音频输出格式,支持的格式包括但不限于:
riff-24khz-16bit-mono-pcm
audio-24khz-192kbitrate-mono-mp3
ogg-24khz-16bit-mono-opus
注意事项
- 每个请求都需包含有效的身份验证信息。
- 对于长文本,生成的音频长度不能超过 10 分钟。
- 预生成的神经网络声音和定制声音的费用不同,具体请参考语音服务定价。
后续步骤
- 创建免费 Azure 帐户以开始使用服务。
- 了解神经网络定制声音的使用方法。
- 探索批处理合成的功能。
通过遵循这些指南,您可以有效地使用文本转语音 REST API 将文本转换为高质量的语音输出。
什么是 Azure?
Azure 云平台汇集的产品和云服务超过 200 种,旨在帮助你将新解决方案付诸实践,以便解决当今的难题,并创造未来。利用所选的工具和框架,在多个云中、在本地以及在边缘生成、运行和管理应用程序。
合作伙伴: