文本转语音服务-Azure AI

文本转语音服务-Azure AI

专用API
服务商 服务商: 微软云厂商
【更新时间: 2024.04.11】 Azure AI的文本转语音服务,这是一款强大的文本到语音应用。它能够将文本巧妙地转换为极其逼真的语音,实现文字转语音的智能语音生成,并且支持多种语言,让文本与语音之间的转换轻松而高效。
免费 (500 万个字符(标准)) 去服务商官网采购>
服务星级:6星
⭐ ⭐ ⭐ ⭐ ⭐ ⭐ 🌟
浏览次数
248
采购人数
5
试用次数
0
! SLA: N/A
! 响应: N/A
! 适用于个人&企业
收藏
×
完成
取消
×
书签名称
确定
<
产品介绍
>

什么是Azure AI的文本转语音服务?

Azure文本转语音服务,它可以将文本内容转换为自然发音的语音输出。这项服务允许用户通过自定义AI语音生成器来创造独特的品牌声音,并能够根据不同的应用场景选择合适的语音风格和情感语调。文本转语音可让应用程序、工具或设备将文本转换为类似于人类的合成语音。 文本转语音功能也称为语音合成。 使用类似于人类的现成预生成神经语音,或根据你的产品或品牌创建独特的自定义神经语音。

 

 

什么是Azure AI的文本转语音服务?

由服务使用方的应用程序发起,以Restful风格为主、通过公网HTTP协议调用Azure AI的文本转语音服务,从而实现程序的自动化交互,提高服务效率。

Azure AI的文本转语音服务有哪些核心功能?

1. 预生成的神经网络声音:提供高度自然的现成语音,用户可以创建 Azure 订阅和语音资源后,使用语音 SDK 或访问 Speech Studio 门户,并选择预生成的神经语音进行操作。
2. 自定义神经语音:用户可以通过自助服务创建自然的品牌语音并限制访问,只需创建 Azure 订阅和语音资源(使用 S0 层),并申请使用自定义语音功能。
3. 实时语音合成:使用语音 SDK 或 REST API 通过预生成的神经网络语音或自定义神经网络语音将文本转换为语音。
4. 长音频的异步合成:使用批量合成 API 异步合成 10 分钟以上的文本转语音文件,适用于有声书籍或讲座等场景。
5. 使用SSML改进文本转语音输出:语音合成标记语言 (SSML) 允许用户对文本转语音输出进行自定义,如调整音调、添加暂停等。
6. 视素:视素是观察到的语音中的关键姿态,通过在语音 SDK 中使用视素事件,可以生成面部动画数据,用于唇读交流、教育、娱乐等方面。

Azure AI的文本转语音服务的核心优势是什么?

1. 逼真的合成语音:启用与人类语音的语调和情感匹配的流畅、自然发音的文本转语音。

2. 可自定义文本讲述者语音:创建反映品牌标识的唯一 AI 语音生成器。

3. 精细文本转语音音频控制:通过轻松地调整语速、音调、发音和停顿等,为你的方案优化语音输出。

4. 灵活部署:在任何地方(在云中、本地或容器边缘)运行文本转语音。

5. 精准控制:微调合成的语音音频以适应你的方案。 使用 语音合成标记语言 (SSML) 或 音频内容创建工具来定义词典 和控制发音、音调、语速、停顿和语调等语音参数。

6. 灵活转换:在数据驻留的任何位置运行文本转语音。使用 容器生成针对强大的云功能和边缘区域优化的逼真语音合成应用程序。

在哪些场景会用到Azure AI的文本转语音服务?

1. 电子书和有声读物

想象一下,您拥有一本精彩的电子书,但您没有时间阅读,或者您只是想在旅途中放松身心,享受听书的乐趣。Azure 文本转语音服务可以将您的电子书或文档转换为自然流畅的语音,为您提供沉浸式的听书体验。您只需将电子书内容上传到 Azure 平台,选择合适的语音风格和语速,即可生成高质量的有声读物。这不仅方便了用户,也为出版社和作家提供了一种新的内容传播方式。

 

 

2. 语音助手和聊天机器人

AI 语音助手和聊天机器人正逐渐成为我们生活中不可或缺的一部分。它们可以帮助我们完成各种任务,例如查询信息、设定提醒、控制智能家居等。Azure 文本转语音服务可以为这些智能助手和聊天机器人提供自然流畅的语音响应,使它们更像一个真正的伙伴,与用户进行自然对话。例如,您可以使用 Azure 文本转语音服务为您的智能音箱或聊天机器人提供个性化的语音,使其更具亲切感和吸引力。

 

 

3. 视频和音频制作

在视频制作或播客中,使用合成语音可以增强内容的吸引力,并为观众提供更丰富的体验。例如,您可以使用 Azure 文本转语音服务为您的视频添加旁白,或为您的播客生成配音。您可以选择不同的语音风格和语速,以适应您的内容和目标受众。这可以节省您聘请专业配音演员的成本,并提高内容制作效率。

 

 

4. 界面朗读

对于视力受限的用户来说,使用电脑和手机等设备会带来很大的困难。Azure 文本转语音服务可以帮助他们通过语音读取屏幕上的信息,例如网页内容、电子邮件、文档等。这可以帮助他们更便捷地获取信息,并提高他们的生活质量。

 

 

5. 客户服务和呼叫中心

自动语音应答系统(IVR)和客户服务机器人可以为客户提供自动语音服务,例如,引导客户进行自助服务、提供常见问题解答等。Azure 文本转语音服务可以为这些系统提供高质量的语音,使其更具人性化,并提高客户满意度。

 

 

6. 教育和学习应用

在教育和学习应用中,Azure 文本转语音服务可以提供语音反馈和朗读功能,帮助用户更好地理解和学习。例如,在语言学习软件中,您可以使用 Azure 文本转语音服务为用户提供语音朗读和发音练习。在儿童教育应用中,您可以使用 Azure 文本转语音服务为孩子朗读故事和童谣,并提供语音互动。

 

<
使用指南
>

文本转语音 REST API 开发使用指南

概述

文本转语音(TTS)服务允许开发者将文本转换为合成语音。本文档提供了如何使用文本转语音 REST API 的基本指南,包括获取语音列表和将文本转换为语音的步骤。

接口地址

获取语音列表

要获取特定区域的语音列表,使用以下终结点:

GET https://<YOUR_RESOURCE_REGION>.tts.speech.microsoft.com/cognitiveservices/voices/list

请将 <YOUR_RESOURCE_REGION> 替换为您所需的区域,例如 westus

将文本转换为语音

要将文本转换为语音,使用以下终结点:

POST https://<YOUR_RESOURCE_REGION>.tts.speech.microsoft.com/cognitiveservices/v1

同样,请将 <YOUR_RESOURCE_REGION> 替换为相应的区域。

身份验证

在使用文本转语音 REST API 之前,您需要进行身份验证。可以使用以下两种方式之一:

  1. 使用 Ocp-Apim-Subscription-Key:在请求中包含您的语音资源密钥。
  2. 使用 Bearer Token:通过向 issueToken 终结点请求获取访问令牌,并在后续请求中使用该令牌。

获取访问令牌

要获取访问令牌,请使用以下终结点:

POST https://<REGION_IDENTIFIER>.api.cognitive.microsoft.com/sts/v1.0/issueToken

<REGION_IDENTIFIER> 替换为与您的订阅区域相匹配的标识符。

区域和终结点

文本转语音服务支持多个区域。以下是一些可用的区域及其对应的终结点:

  • 澳大利亚东部: https://australiaeast.tts.speech.microsoft.com
  • 巴西南部: https://brazilsouth.tts.speech.microsoft.com
  • 加拿大中部: https://canadacentral.tts.speech.microsoft.com
  • 美国东部: https://eastus.tts.speech.microsoft.com
  • 西欧: https://westeurope.tts.speech.microsoft.com

确保选择与您的语音资源区域匹配的终结点。

音频输出格式

在请求中,您可以指定音频输出格式,支持的格式包括但不限于:

  • riff-24khz-16bit-mono-pcm
  • audio-24khz-192kbitrate-mono-mp3
  • ogg-24khz-16bit-mono-opus

注意事项

  • 每个请求都需包含有效的身份验证信息。
  • 对于长文本,生成的音频长度不能超过 10 分钟。
  • 预生成的神经网络声音和定制声音的费用不同,具体请参考语音服务定价。

后续步骤

  • 创建免费 Azure 帐户以开始使用服务。
  • 了解神经网络定制声音的使用方法。
  • 探索批处理合成的功能。

通过遵循这些指南,您可以有效地使用文本转语音 REST API 将文本转换为高质量的语音输出。

 

详情查看链接:https://learn.microsoft.com/zh-cn/azure/ai-services/speech-service/rest-text-to-speech?tabs=streaming

<
产品问答
>
?
文本转语音是如何计费的?
文本转语音服务按字符计费。 查看定价说明中可计费字符的定义。
?
文本转语音合成请求的速率限制是多少?
文本转语音的合成速率在收到更多请求时会自动调整。 每个语音资源都设有默认速率限制。 费率可根据业务理由进行调整,不会因费率上限增加而产生额外的费用。 请在语音服务配额和限制中查看更多详细信息。
?
如何向最终用户披露语音是合成语音?
我们建议每个用户在使用 TTS 服务时都应遵守我们的行为准则。 披露语音的合成性质有多种方式,包括隐式和显式署名。 请参考披露设计准则。
?
如何降低语音应用的延迟?
我们为你提供了一些提示,以降低延迟并为用户提供最佳性能。 请参阅使用语音 SDK 降低语音合成延迟。
?
TTS 支持哪些输出音频格式?
TTS 服务支持采用常用采样率的各种流式处理和非流式处理音频格式。 所有 TTS 预生成的神经语音都可支持 48 kHz 和 24 kHz 的高保真音频输出。 可以根据需要对音频重新采样以支持其他速率。 请参阅音频输出。
?
是否可以自定义语音以重读特定字词?
某些语音支持调整强调,具体取决于区域设置。 请参阅强调标记。
?
每种情绪是否可以有多种不同的强烈程度,比如悲伤、有点悲伤等?
某些语音支持调整风格程度,具体取决于区域设置。 请参阅 mstts:express-as 标记。
?
是否可以在同一组训练数据中包含重复的文本句子?
否。 该服务将标记重复的句子,并仅保留第一个导入的句子。 有关脚本选择条件,请参阅录制自定义语音示例。
?
是否可以在同一组训练数据中包含多个风格?
建议在一组训练数据中保持一致风格。 如果风格不同,请将数据放入不同的训练集中。 在这种情况下,可以考虑使用神经网络定制声音的多风格语音训练功能。 有关脚本选择条件,请参阅录制自定义语音示例。
?
通过 SSML 切换风格是否适用于神经网络定制声音?
通过 SSML 切换风格适用于预生成的多风格语音和 CNV 多风格语音。 通过多风格训练,可以创建以不同风格说话的语音,还可以通过 SSML 调整这些风格。
<
关于我们
>
微软Azure是微软公司提供的云计算服务,以即付即用和免费试用的方式,支持企业构建、部署和管理工作负载。Azure拥有丰富的产品线,包括虚拟机、AI服务、容器服务、混合云解决方案等,满足不同业务需求。其全球基础结构覆盖广泛,确保数据安全和合规性。Azure致力于帮助企业实现数字化转型,通过创新技术推动业务增长。
联系信息
服务时间: 09:00~18:00
电话号码: 400-820-6069

什么是 Azure?

Azure 云平台汇集的产品和云服务超过 200 种,旨在帮助你将新解决方案付诸实践,以便解决当今的难题,并创造未来。利用所选的工具和框架,在多个云中、在本地以及在边缘生成、运行和管理应用程序。

合作伙伴:

<
最可能同场景使用的其他API
>
API接口列表
<
使用指南
>

文本转语音 REST API 开发使用指南

概述

文本转语音(TTS)服务允许开发者将文本转换为合成语音。本文档提供了如何使用文本转语音 REST API 的基本指南,包括获取语音列表和将文本转换为语音的步骤。

接口地址

获取语音列表

要获取特定区域的语音列表,使用以下终结点:

GET https://<YOUR_RESOURCE_REGION>.tts.speech.microsoft.com/cognitiveservices/voices/list

请将 <YOUR_RESOURCE_REGION> 替换为您所需的区域,例如 westus

将文本转换为语音

要将文本转换为语音,使用以下终结点:

POST https://<YOUR_RESOURCE_REGION>.tts.speech.microsoft.com/cognitiveservices/v1

同样,请将 <YOUR_RESOURCE_REGION> 替换为相应的区域。

身份验证

在使用文本转语音 REST API 之前,您需要进行身份验证。可以使用以下两种方式之一:

  1. 使用 Ocp-Apim-Subscription-Key:在请求中包含您的语音资源密钥。
  2. 使用 Bearer Token:通过向 issueToken 终结点请求获取访问令牌,并在后续请求中使用该令牌。

获取访问令牌

要获取访问令牌,请使用以下终结点:

POST https://<REGION_IDENTIFIER>.api.cognitive.microsoft.com/sts/v1.0/issueToken

<REGION_IDENTIFIER> 替换为与您的订阅区域相匹配的标识符。

区域和终结点

文本转语音服务支持多个区域。以下是一些可用的区域及其对应的终结点:

  • 澳大利亚东部: https://australiaeast.tts.speech.microsoft.com
  • 巴西南部: https://brazilsouth.tts.speech.microsoft.com
  • 加拿大中部: https://canadacentral.tts.speech.microsoft.com
  • 美国东部: https://eastus.tts.speech.microsoft.com
  • 西欧: https://westeurope.tts.speech.microsoft.com

确保选择与您的语音资源区域匹配的终结点。

音频输出格式

在请求中,您可以指定音频输出格式,支持的格式包括但不限于:

  • riff-24khz-16bit-mono-pcm
  • audio-24khz-192kbitrate-mono-mp3
  • ogg-24khz-16bit-mono-opus

注意事项

  • 每个请求都需包含有效的身份验证信息。
  • 对于长文本,生成的音频长度不能超过 10 分钟。
  • 预生成的神经网络声音和定制声音的费用不同,具体请参考语音服务定价。

后续步骤

  • 创建免费 Azure 帐户以开始使用服务。
  • 了解神经网络定制声音的使用方法。
  • 探索批处理合成的功能。

通过遵循这些指南,您可以有效地使用文本转语音 REST API 将文本转换为高质量的语音输出。

 

详情查看链接:https://learn.microsoft.com/zh-cn/azure/ai-services/speech-service/rest-text-to-speech?tabs=streaming

<
依赖服务
>
<
产品问答
>
?
文本转语音是如何计费的?
文本转语音服务按字符计费。 查看定价说明中可计费字符的定义。
?
文本转语音合成请求的速率限制是多少?
文本转语音的合成速率在收到更多请求时会自动调整。 每个语音资源都设有默认速率限制。 费率可根据业务理由进行调整,不会因费率上限增加而产生额外的费用。 请在语音服务配额和限制中查看更多详细信息。
?
如何向最终用户披露语音是合成语音?
我们建议每个用户在使用 TTS 服务时都应遵守我们的行为准则。 披露语音的合成性质有多种方式,包括隐式和显式署名。 请参考披露设计准则。
?
如何降低语音应用的延迟?
我们为你提供了一些提示,以降低延迟并为用户提供最佳性能。 请参阅使用语音 SDK 降低语音合成延迟。
?
TTS 支持哪些输出音频格式?
TTS 服务支持采用常用采样率的各种流式处理和非流式处理音频格式。 所有 TTS 预生成的神经语音都可支持 48 kHz 和 24 kHz 的高保真音频输出。 可以根据需要对音频重新采样以支持其他速率。 请参阅音频输出。
?
是否可以自定义语音以重读特定字词?
某些语音支持调整强调,具体取决于区域设置。 请参阅强调标记。
?
每种情绪是否可以有多种不同的强烈程度,比如悲伤、有点悲伤等?
某些语音支持调整风格程度,具体取决于区域设置。 请参阅 mstts:express-as 标记。
?
是否可以在同一组训练数据中包含重复的文本句子?
否。 该服务将标记重复的句子,并仅保留第一个导入的句子。 有关脚本选择条件,请参阅录制自定义语音示例。
?
是否可以在同一组训练数据中包含多个风格?
建议在一组训练数据中保持一致风格。 如果风格不同,请将数据放入不同的训练集中。 在这种情况下,可以考虑使用神经网络定制声音的多风格语音训练功能。 有关脚本选择条件,请参阅录制自定义语音示例。
?
通过 SSML 切换风格是否适用于神经网络定制声音?
通过 SSML 切换风格适用于预生成的多风格语音和 CNV 多风格语音。 通过多风格训练,可以创建以不同风格说话的语音,还可以通过 SSML 调整这些风格。
<
关于我们
>
微软Azure是微软公司提供的云计算服务,以即付即用和免费试用的方式,支持企业构建、部署和管理工作负载。Azure拥有丰富的产品线,包括虚拟机、AI服务、容器服务、混合云解决方案等,满足不同业务需求。其全球基础结构覆盖广泛,确保数据安全和合规性。Azure致力于帮助企业实现数字化转型,通过创新技术推动业务增长。
联系信息
服务时间: 09:00~18:00
电话号码: 400-820-6069

什么是 Azure?

Azure 云平台汇集的产品和云服务超过 200 种,旨在帮助你将新解决方案付诸实践,以便解决当今的难题,并创造未来。利用所选的工具和框架,在多个云中、在本地以及在边缘生成、运行和管理应用程序。

合作伙伴:

<
合作案例
>

<
最可能同场景使用的其他API
>