Azure文本转语音服务-AI语音

Azure文本转语音服务-AI语音

专用API
服务商 服务商: 微软云厂商
【更新时间: 2024.04.11】 构建将文本转换为逼真语音的应用
免费 (500 万个字符(标准)) 去服务商官网采购>
服务星级:
6星
⭐ ⭐ ⭐ ⭐ ⭐ ⭐ 🌟
调用次数
0
集成人数
0
商用人数
0
! SLA: N/A
! 响应: N/A
! 适用于个人&企业
添加到书签
×
完成
取消
×
书签名称
确定
<
产品介绍
>

什么是Azure文本转语音服务-AI语音?

Azure 文本转语音是一项AI语音功能,它可以将文本内容转换为自然发音的语音输出。这项服务允许用户通过自定义AI语音生成器来创造独特的品牌声音,并能够根据不同的应用场景选择合适的语音风格和情感语调。

 

什么是Azure文本转语音服务-AI语音接口?

由服务使用方的应用程序发起,以Restful风格为主、通过公网HTTP协议调用Azure文本转语音服务-AI语音,从而实现程序的自动化交互,提高服务效率。

Azure文本转语音服务-AI语音有哪些核心功能?

  1. 逼真的合成语音:生成流畅、自然的发音,为用户提供类似真人的语音体验。
  2. 可定制的文本讲述者语音:允许用户根据自己的品牌特色和特定需求定制AI语音。
  3. 精细的音频控制:通过调整语速、音调、发音、停顿等参数,优化语音输出。
  4. 灵活部署:支持在云中、本地或容器边缘运行文本转语音,以适应不同的应用需求。
  5. 自定义语音输出:使用语音合成标记语言(SSML)和音频内容创建工具来定义词典和控制语音参数。

Azure文本转语音服务-AI语音的核心优势是什么?

逼真的合成语音
逼真的合成语音
启用与人类语音的语调和情感匹配的流畅、自然发音的文本转语音。
可自定义文本讲述者语音
可自定义文本讲述者语音
创建反映品牌标识的唯一 AI 语音生成器。
精细文本转语音音频控制
精细文本转语音音频控制
通过轻松地调整语速、音调、发音和停顿等,为你的方案优化语音输出。
灵活部署
灵活部署
在任何地方(在云中、本地或容器边缘)运行文本转语音。
灵活转换
灵活转换
微调合成的语音音频以适应你的方案。 使用 语音合成标记语言 (SSML) 或 音频内容创建工具来定义词典 和控制发音、音调、语速、停顿和语调等语音参数。
灵活转换
灵活转换
在数据驻留的任何位置运行文本转语音。使用 容器生成针对强大的云功能和边缘区域优化的逼真语音合成应用程序。

在哪些场景会用到Azure文本转语音服务-AI语音接口?

电子书和有声读物
电子书和有声读物
将电子书或文档转换为语音,为用户提供听书体验。
语音助手和聊天机器人
语音助手和聊天机器人
为智能助手和聊天机器人提供自然流畅的语音响应。
视频和音频制作
视频和音频制作
在视频制作或播客中使用合成语音,以增强内容的吸引力。
界面朗读
界面朗读
帮助视力受限的用户通过语音读取屏幕上的信息。
客户服务和呼叫中心
客户服务和呼叫中心
自动语音应答系统(IVR)和客户服务机器人,提供自动语音服务。
教育和学习应用
教育和学习应用
辅助学习工具,如语言学习软件或儿童教育应用,提供语音反馈和朗读功能。
 
<
使用指南
>

<
产品问答
>
?
文本转语音是如何计费的?
文本转语音服务按字符计费。 查看定价说明中可计费字符的定义。
?
文本转语音合成请求的速率限制是多少?
文本转语音的合成速率在收到更多请求时会自动调整。 每个语音资源都设有默认速率限制。 费率可根据业务理由进行调整,不会因费率上限增加而产生额外的费用。 请在语音服务配额和限制中查看更多详细信息。
?
如何向最终用户披露语音是合成语音?
我们建议每个用户在使用 TTS 服务时都应遵守我们的行为准则。 披露语音的合成性质有多种方式,包括隐式和显式署名。 请参考披露设计准则。
?
如何降低语音应用的延迟?
我们为你提供了一些提示,以降低延迟并为用户提供最佳性能。 请参阅使用语音 SDK 降低语音合成延迟。
?
TTS 支持哪些输出音频格式?
TTS 服务支持采用常用采样率的各种流式处理和非流式处理音频格式。 所有 TTS 预生成的神经语音都可支持 48 kHz 和 24 kHz 的高保真音频输出。 可以根据需要对音频重新采样以支持其他速率。 请参阅音频输出。
?
是否可以自定义语音以重读特定字词?
某些语音支持调整强调,具体取决于区域设置。 请参阅强调标记。
?
每种情绪是否可以有多种不同的强烈程度,比如悲伤、有点悲伤等?
某些语音支持调整风格程度,具体取决于区域设置。 请参阅 mstts:express-as 标记。
?
是否可以在同一组训练数据中包含重复的文本句子?
否。 该服务将标记重复的句子,并仅保留第一个导入的句子。 有关脚本选择条件,请参阅录制自定义语音示例。
?
是否可以在同一组训练数据中包含多个风格?
建议在一组训练数据中保持一致风格。 如果风格不同,请将数据放入不同的训练集中。 在这种情况下,可以考虑使用神经网络定制声音的多风格语音训练功能。 有关脚本选择条件,请参阅录制自定义语音示例。
?
通过 SSML 切换风格是否适用于神经网络定制声音?
通过 SSML 切换风格适用于预生成的多风格语音和 CNV 多风格语音。 通过多风格训练,可以创建以不同风格说话的语音,还可以通过 SSML 调整这些风格。
<
关于我们
>
微软云厂商
联系信息
服务时间: 09:00~18:00
电话号码: 400-820-6069

什么是 Azure?

Azure 云平台汇集的产品和云服务超过 200 种,旨在帮助你将新解决方案付诸实践,以便解决当今的难题,并创造未来。利用所选的工具和框架,在多个云中、在本地以及在边缘生成、运行和管理应用程序。

 

API接口列表
<
使用指南
>

<
依赖服务
>
<
产品问答
>
?
文本转语音是如何计费的?
文本转语音服务按字符计费。 查看定价说明中可计费字符的定义。
?
文本转语音合成请求的速率限制是多少?
文本转语音的合成速率在收到更多请求时会自动调整。 每个语音资源都设有默认速率限制。 费率可根据业务理由进行调整,不会因费率上限增加而产生额外的费用。 请在语音服务配额和限制中查看更多详细信息。
?
如何向最终用户披露语音是合成语音?
我们建议每个用户在使用 TTS 服务时都应遵守我们的行为准则。 披露语音的合成性质有多种方式,包括隐式和显式署名。 请参考披露设计准则。
?
如何降低语音应用的延迟?
我们为你提供了一些提示,以降低延迟并为用户提供最佳性能。 请参阅使用语音 SDK 降低语音合成延迟。
?
TTS 支持哪些输出音频格式?
TTS 服务支持采用常用采样率的各种流式处理和非流式处理音频格式。 所有 TTS 预生成的神经语音都可支持 48 kHz 和 24 kHz 的高保真音频输出。 可以根据需要对音频重新采样以支持其他速率。 请参阅音频输出。
?
是否可以自定义语音以重读特定字词?
某些语音支持调整强调,具体取决于区域设置。 请参阅强调标记。
?
每种情绪是否可以有多种不同的强烈程度,比如悲伤、有点悲伤等?
某些语音支持调整风格程度,具体取决于区域设置。 请参阅 mstts:express-as 标记。
?
是否可以在同一组训练数据中包含重复的文本句子?
否。 该服务将标记重复的句子,并仅保留第一个导入的句子。 有关脚本选择条件,请参阅录制自定义语音示例。
?
是否可以在同一组训练数据中包含多个风格?
建议在一组训练数据中保持一致风格。 如果风格不同,请将数据放入不同的训练集中。 在这种情况下,可以考虑使用神经网络定制声音的多风格语音训练功能。 有关脚本选择条件,请参阅录制自定义语音示例。
?
通过 SSML 切换风格是否适用于神经网络定制声音?
通过 SSML 切换风格适用于预生成的多风格语音和 CNV 多风格语音。 通过多风格训练,可以创建以不同风格说话的语音,还可以通过 SSML 调整这些风格。
<
关于我们
>
微软云厂商
联系信息
服务时间: 09:00~18:00
电话号码: 400-820-6069

什么是 Azure?

Azure 云平台汇集的产品和云服务超过 200 种,旨在帮助你将新解决方案付诸实践,以便解决当今的难题,并创造未来。利用所选的工具和框架,在多个云中、在本地以及在边缘生成、运行和管理应用程序。

 

<
合作案例
>