文本转语音-Amazon

文本转语音-Amazon

专用API
【更新时间: 2024.06.19】 Amazon Polly 文本转语音API 是一种将文本换为逼真语音的服务,借助文字转语音服务,您可以创建能够说话的应用程序,并构建全新类别的支持语音功能的产品。文字到语音支持多种语言。
服务星级:2星
⭐ ⭐ 🌟 🌟 🌟 🌟 🌟
调用次数
0
集成人数
0
商用人数
0
! SLA: N/A
! 响应: N/A
! 适用于个人&企业
收藏
×
完成
取消
×
书签名称
确定
<
产品介绍
>

什么是Amazon 的文本转语音?

Amazon Polly 是 Amazon Web Services (AWS) 提供的一项文本转语音(Text-to-Speech, TTS)服务。它允许开发人员将文本内容转换为自然、类似人声的语音输出。通过 Polly 的 API,用户可以将任何文本转换为高质量的音频流,这些音频流可以直接播放,或者作为文件保存。

什么是Amazon 的文本转语音?

由服务使用方的应用程序发起,以Restful风格为主、通过公网HTTP协议调用Amazon 的文本转语音,从而实现程序的自动化交互,提高服务效率。

Amazon 的文本转语音有哪些核心功能?

  1. 高质量的语音输出:提供逼真的语音,支持多种语言和方言。
  2. 广泛的语音和语言选择:提供多种标准语音和神经文本转语音(NTTS)声音,并支持多种语言。
  3. 语音同步的元数据:提供与语音输出同步的元数据,用于改善视觉体验,如语音同步的面部动画或文字突出提示。
  4. 灵活的音频格式和采样率:支持多种音频格式和采样率,以适应不同的带宽和音频质量要求。
  5. 语音合成标记语言(SSML)支持:支持 SSML 标签,以进行更高级的文本处理,如断句、重音和语调调整。
  6. 自定义词典:允许用户自定义特定词语的发音,以适应品牌名称、首字母缩略词等。
  7. 品牌之声:为组织提供定制化的神经文本转语音(NTTS)语音,以创建独特的品牌声音。

Amazon 的文本转语音的技术原理是什么?

Amazon Polly 使用深度学习技术来合成听起来自然的人类语音,让您可以将文章转换为语音。借助多种语言的数十种逼真的声音,使用 Amazon Polly 构建语音激活的应用程序。

  1. 创建内容
  2. 在线学习
  3. 电话语音

Amazon 的文本转语音的核心优势是什么?

  1. 多语言语音生成
    • 在面向全球受众的应用程序(如RSS源、网站或视频)中,支持数十种语言的语音生成。
  2. 自然声音吸引客户
    • 利用Amazon Polly的语音输出,以自然的声音吸引并存储客户语音,便于在交互式或自动语音响应系统中对来电客户进行语音提示。
  3. 语音属性调整
    • 支持使用SSML(语音合成标记语言),这是一种基于XML的W3C标准标记语言,用于调整说话风格、语速、音调和音量。
    • 适用于语音合成应用程序,支持断句、重音和语调等通用SSML标签。
  4. 自定义语音输出
    • 提供自定义选项,支持词典和SSML标签的语音输出控制。
  5. 标准格式存储与重放
    • 语音可以以标准格式(如MP3和OGG)进行存储和重放,便于在各种设备和平台上使用。
  6. 快速响应与逼真体验
    • 提供一贯的快速响应速度,确保用户获得逼真的声音和对话式用户体验。

在哪些场景会用到Amazon 的文本转语音?

  1. 辅助技术:为视觉障碍或阅读困难的用户提供有声读物、网页内容或应用内文本的有声版本。
  2. 智能助手和聊天机器人:为 Alexa 技能、聊天机器人或智能助手提供自然、逼真的语音响应。
  3. 教育应用:用于语言学习、阅读辅助或电子教材的有声化。
  4. 视频和播客:为视频内容添加旁白,或为播客生成音频内容。
<
产品价格
>
按实际使用量付费模式

您按月付费,计费依据是您处理的文本的字符数量。Amazon Polly 的标准语音定价为:对于超出免费套餐的语音或语音标记请求,每 100 万个字符 4.00 USD。Amazon Polly 的神经语音定价为:对于超出免费套餐的语音或请求的语音标记,每 100 万个字符 16.00 USD。Amazon Polly 的长格式语音定价为:对于超出免费套餐的语音或请求的语音标记,每 100 万个字符 100.00 USD。 Amazon Polly 的生成式语音定价为:对于超出免费套餐的语音请求,每 100 万个字符 30 USD。

每月数百万个字符

对于 Amazon Polly 的标准语音,从您提交第一个 Polly 语音或语音标记请求起 12 个月内,针对该类请求,免费套餐每个月提供 500 万个字符服务。对于神经语音,从您提交第一个语音或语音标记请求起 12 个月内,针对该类请求,免费套餐每个月提供 100 万个字符服务。对于长格式语音,从您提交第一个 Polly 语音或语音标记请求起 12 个月内,针对该类请求,免费套餐每个月提供 50 万个字符服务。 对于生成式语音,从您提交第一个 Polly 语音请求起 12 个月内,针对该类请求,免费套餐每个月提供 10 万字符的服务。

<
使用指南
>
Step 1 - Sign up for an Amazon Web Services account
设置并登录您的 AWS 账户 观看网络研讨会并阅读文档 登录 Polly 控制台并开始构建。
<
产品问答
>
?
什么是 Amazon Polly?
Amazon Polly 是一项将文本转换为逼真语音的服务。Amazon Polly 可以为现有应用程序添加先进的语音功能,支持构建具有语音功能的全新类别产品,从移动应用程序和汽车到设备和家电,均涵盖其中。Amazon Polly 可以提供几十种逼真的语音并支持多种语言,因此您可以选择最合适的语音,并在许多地理位置发布具有语音功能的应用程序。Amazon Polly 简单易用 – 您只需将要转换为语音的文本发送到 Amazon Polly API,Amazon Polly 便会立即将音频流返回到您的应用程序。您可以直接播放该音频流,也可将其存储为 MP3 等标准音频文件格式。Amazon Polly 支持语音合成标记语言 (SSML) 标签(如 prosody),因此您可以调整语速、音调或音量。Amazon Polly 是一种安全的服务,能够大规模地实现以上所有功能,且延迟较低。您可以缓存并重播 Amazon Polly 生成的语音,无需额外付费。注册 Amazon Polly 后,您可在第一年内每月免费转换数百万个字符。Amazon Polly 采用按需付费定价模式,对每条请求收取的费用较低,且对语音输出的存储和重复使用没有太多限制,让您能够经济高效在任何地方实现语音合成。
?
为什么要使用 Amazon Polly?
您可以使用 Amazon Polly 为您的应用程序提供高质量的语音输出。Amazon Polly 是一项经济高效的服务,可以在极短的时间内做出响应,且几乎适用于各种使用情形,对存储和重复使用生成的语音也没有任何限制。
?
Amazon Polly 可以提供哪些功能?
您可以使用标准化的语音合成标记语言 (SSML) 控制语音的各个方面,如发音、音量、音调、语速等。您可以使用新闻播音员风格为某些神经语音合成语音,使其听起来像电视或无线电新闻播音员。您可以根据音频流中的元数据,检测用户听到文本中的特定文字或语句的时间。这让开发人员能够将突出显示的图形和动画(例如头像的嘴唇动作)与合成语音同步。您可以使用自定义字典修改公司名称、首字母缩略词、外来词和新词等特定词语的发音,例如“P!nk”、“ROTFL”和“C'est la vie”(使用非法语语音说话时)。
?
什么是语音标记?
语音标记用于补充从输入文本生成的合成语音。将这一元数据流与合成语音音频流配合使用,客户能够在应用程序中提供增强的视觉体验,例如语音同步动画或者卡拉 ok 式突出提示。 Amazon Polly 使用以下四种元素来生成语音标记: 语句,指明要朗读的输入文本中的语句元素; 文字,指明文本中的文字元素; 视位,描述与发出的声音对应的嘴唇形状; SSML,描述文本中使用的 SSML 元素。 语音标记以 JSON 流(具体指一组由新线隔开的独立 JSON 对象)的形式交付,在使用合成语音方法处理语音标记类参数时,涵盖上面一个到全部四个元素中的任何位置。有关更多信息,请参阅《Amazon Polly 开发人员指南》。
?
Amazon Polly 服务最常见的使用案例有哪些?
借助 Amazon Polly,您可以添加逼真的语音功能,让您的应用程序生动起来。例如,在电子学习和教育中,您可以利用 Amazon Polly 的文本转语音 (TTS) 功能构建应用程序,帮助有阅读障碍的人。Amazon Polly 可以用于帮助盲人和视障人士使用数字内容(例如电子书、新闻等)。Amazon Polly 还可用于公共交通和工业控制系统的通知系统,发布通知和紧急公告。很多设备(如机顶盒、智能手表、平板电脑、智能手机和 IoT 设备)都可以利用 Amazon Polly 来提供音频输出。Amazon Polly 可以用于电话服务解决方案,为交互式语音应答系统提供语音支持。问答游戏、动画、头像或旁白生成等应用程序是 Amazon Polly 等基于云的 TTS 解决方案的常见使用案例。
<
关于我们
>
亚马逊云科技(Amazon Web Services,简称AWS)是全球领先的云计算服务提供商,提供包括计算、存储、数据库、分析、机器学习、物联网、移动、安全、混合云、虚拟和增强现实等在内的广泛服务。AWS在全球34个地理区域内运营108个可用区,服务超过200个国家和地区,帮助企业、开发者和政府机构构建灵活、可靠、可扩展的云基础设施。作为亚马逊公司的一部分,AWS致力于提供创新的云解决方案,支持客户实现数字化转型。
联系信息
服务时间: 早9:00-晚8:00 (法定假期除外)
电话号码: +86 (10) 1010 0866
网页在线客服: 咨询

AWS 云计算

Amazon Web Services(AWS)是全球最全面、应用最广泛的云,从全球数据中心提供超过 200 项功能齐全的服务。数百万客户(包括增长最快速的初创公司、最大型企业和主要的政府机构)都在使用 AWS 来降低成本、提高敏捷性并加速创新。

 

 

<
最可能同场景使用的其他API
>
API接口列表
<
产品价格
>
按实际使用量付费模式

您按月付费,计费依据是您处理的文本的字符数量。Amazon Polly 的标准语音定价为:对于超出免费套餐的语音或语音标记请求,每 100 万个字符 4.00 USD。Amazon Polly 的神经语音定价为:对于超出免费套餐的语音或请求的语音标记,每 100 万个字符 16.00 USD。Amazon Polly 的长格式语音定价为:对于超出免费套餐的语音或请求的语音标记,每 100 万个字符 100.00 USD。 Amazon Polly 的生成式语音定价为:对于超出免费套餐的语音请求,每 100 万个字符 30 USD。

每月数百万个字符

对于 Amazon Polly 的标准语音,从您提交第一个 Polly 语音或语音标记请求起 12 个月内,针对该类请求,免费套餐每个月提供 500 万个字符服务。对于神经语音,从您提交第一个语音或语音标记请求起 12 个月内,针对该类请求,免费套餐每个月提供 100 万个字符服务。对于长格式语音,从您提交第一个 Polly 语音或语音标记请求起 12 个月内,针对该类请求,免费套餐每个月提供 50 万个字符服务。 对于生成式语音,从您提交第一个 Polly 语音请求起 12 个月内,针对该类请求,免费套餐每个月提供 10 万字符的服务。

<
使用指南
>
Step 1 - Sign up for an Amazon Web Services account
设置并登录您的 AWS 账户 观看网络研讨会并阅读文档 登录 Polly 控制台并开始构建。
<
依赖服务
>
<
产品问答
>
?
什么是 Amazon Polly?
Amazon Polly 是一项将文本转换为逼真语音的服务。Amazon Polly 可以为现有应用程序添加先进的语音功能,支持构建具有语音功能的全新类别产品,从移动应用程序和汽车到设备和家电,均涵盖其中。Amazon Polly 可以提供几十种逼真的语音并支持多种语言,因此您可以选择最合适的语音,并在许多地理位置发布具有语音功能的应用程序。Amazon Polly 简单易用 – 您只需将要转换为语音的文本发送到 Amazon Polly API,Amazon Polly 便会立即将音频流返回到您的应用程序。您可以直接播放该音频流,也可将其存储为 MP3 等标准音频文件格式。Amazon Polly 支持语音合成标记语言 (SSML) 标签(如 prosody),因此您可以调整语速、音调或音量。Amazon Polly 是一种安全的服务,能够大规模地实现以上所有功能,且延迟较低。您可以缓存并重播 Amazon Polly 生成的语音,无需额外付费。注册 Amazon Polly 后,您可在第一年内每月免费转换数百万个字符。Amazon Polly 采用按需付费定价模式,对每条请求收取的费用较低,且对语音输出的存储和重复使用没有太多限制,让您能够经济高效在任何地方实现语音合成。
?
为什么要使用 Amazon Polly?
您可以使用 Amazon Polly 为您的应用程序提供高质量的语音输出。Amazon Polly 是一项经济高效的服务,可以在极短的时间内做出响应,且几乎适用于各种使用情形,对存储和重复使用生成的语音也没有任何限制。
?
Amazon Polly 可以提供哪些功能?
您可以使用标准化的语音合成标记语言 (SSML) 控制语音的各个方面,如发音、音量、音调、语速等。您可以使用新闻播音员风格为某些神经语音合成语音,使其听起来像电视或无线电新闻播音员。您可以根据音频流中的元数据,检测用户听到文本中的特定文字或语句的时间。这让开发人员能够将突出显示的图形和动画(例如头像的嘴唇动作)与合成语音同步。您可以使用自定义字典修改公司名称、首字母缩略词、外来词和新词等特定词语的发音,例如“P!nk”、“ROTFL”和“C'est la vie”(使用非法语语音说话时)。
?
什么是语音标记?
语音标记用于补充从输入文本生成的合成语音。将这一元数据流与合成语音音频流配合使用,客户能够在应用程序中提供增强的视觉体验,例如语音同步动画或者卡拉 ok 式突出提示。 Amazon Polly 使用以下四种元素来生成语音标记: 语句,指明要朗读的输入文本中的语句元素; 文字,指明文本中的文字元素; 视位,描述与发出的声音对应的嘴唇形状; SSML,描述文本中使用的 SSML 元素。 语音标记以 JSON 流(具体指一组由新线隔开的独立 JSON 对象)的形式交付,在使用合成语音方法处理语音标记类参数时,涵盖上面一个到全部四个元素中的任何位置。有关更多信息,请参阅《Amazon Polly 开发人员指南》。
?
Amazon Polly 服务最常见的使用案例有哪些?
借助 Amazon Polly,您可以添加逼真的语音功能,让您的应用程序生动起来。例如,在电子学习和教育中,您可以利用 Amazon Polly 的文本转语音 (TTS) 功能构建应用程序,帮助有阅读障碍的人。Amazon Polly 可以用于帮助盲人和视障人士使用数字内容(例如电子书、新闻等)。Amazon Polly 还可用于公共交通和工业控制系统的通知系统,发布通知和紧急公告。很多设备(如机顶盒、智能手表、平板电脑、智能手机和 IoT 设备)都可以利用 Amazon Polly 来提供音频输出。Amazon Polly 可以用于电话服务解决方案,为交互式语音应答系统提供语音支持。问答游戏、动画、头像或旁白生成等应用程序是 Amazon Polly 等基于云的 TTS 解决方案的常见使用案例。
<
关于我们
>
亚马逊云科技(Amazon Web Services,简称AWS)是全球领先的云计算服务提供商,提供包括计算、存储、数据库、分析、机器学习、物联网、移动、安全、混合云、虚拟和增强现实等在内的广泛服务。AWS在全球34个地理区域内运营108个可用区,服务超过200个国家和地区,帮助企业、开发者和政府机构构建灵活、可靠、可扩展的云基础设施。作为亚马逊公司的一部分,AWS致力于提供创新的云解决方案,支持客户实现数字化转型。
联系信息
服务时间: 早9:00-晚8:00 (法定假期除外)
电话号码: +86 (10) 1010 0866
网页在线客服: 咨询

AWS 云计算

Amazon Web Services(AWS)是全球最全面、应用最广泛的云,从全球数据中心提供超过 200 项功能齐全的服务。数百万客户(包括增长最快速的初创公司、最大型企业和主要的政府机构)都在使用 AWS 来降低成本、提高敏捷性并加速创新。

 

 

<
合作案例
>
engie ascender caratlane
<
最可能同场景使用的其他API
>