文本转语音服务-Azure AI

专用API

服务商：微软云平台

【更新时间: 2024.04.11】 Azure AI的文本转语音服务，这是一款强大的文本到语音应用。它能够将文本巧妙地转换为极其逼真的语音，实现文字转语音的智能语音生成，并且支持多种语言，让文本与语音之间的转换轻松而高效。

免费（500 万个字符（标准））去服务商官网采购>

浏览次数

1.1K

采购人数

试用次数

SLA: N/A

响应: N/A

适用于个人&企业

书签名称

确定

相似API

有道语音生成服务-文本转语音

423

智能语音合成（text-to-speech，TTS）满足一般语言的文字转语音的需求，文本到语音让您的应用或设备开口说话，让发音更自然和专业，助力提升人机交互体验。文字到语音合成广泛应用于有声阅读、翻译对话、语音导航等场景。

Text to Speech

177

使用该API可以将任何文字转语音，文字到语音使机器和应用程序能够说话。文本转语音支持多种语言，文本到语音实现语音生成。

Amazon 文本转语音服务-Polly

140

Amazon Polly 是一种将文本换为逼真语音的服务，借助文字转语音服务，您可以创建能够说话的应用程序，并构建全新类别的支持语音功能的产品。文字到语音支持多种语言。

API详情
使用指南
常见 FAQ
关于我们
相关推荐

产品介绍

什么是Azure AI的文本转语音服务?

Azure文本转语音服务，它可以将文本内容转换为自然发音的语音输出。这项服务允许用户通过自定义AI语音生成器来创造独特的品牌声音，并能够根据不同的应用场景选择合适的语音风格和情感语调。文本转语音可让应用程序、工具或设备将文本转换为类似于人类的合成语音。文本转语音功能也称为语音合成。使用类似于人类的现成预生成神经语音，或根据你的产品或品牌创建独特的自定义神经语音。

Azure AI的文本转语音服务有哪些核心功能？

实时语音合成： azure 文本转语音提供实时语音合成功能，使用语音SDK或REST API可以通过预生成的神经网络语音将文本转换为语音。azure 文本转语音使得应用程序、工具或设备能够实时生成流畅自然的语音输出，适用于聊天机器人、语音助手和车内导航系统等场景。
长音频的异步合成：使用批量合成API，azure 文本转语音能够异步合成10分钟以上的长音频文件，例如有声书籍或讲座。与实时合成不同，这种合成方式不会立即返回响应，而是通过异步请求、轮询响应和下载合成音频的方式来实现。
预生成的神经网络语音：azure 文本转语音使用深度神经网络来生成语音，克服了传统语音合成在口语的重音和语调方面的局限性。韵律预测和语音合成同步发生，使输出听起来更流畅且自然。每个预生成的神经语音模型在24 kHz和高保真48 kHz下可用，适用于让聊天机器人和语音助手的互动更加自然和吸引人。
使用SSML改进文本转语音输出：语音合成标记语言(SSML)是一种基于XML的标记语言，用于对文本转语音输出进行自定义。使用SSML，可以调整音调、添加暂停、改进发音、更改语速、调整音量，以及将多个语音归属到单个文档，从而提供更精细的语音控制

Azure AI的文本转语音服务的核心优势是什么？

高质量的神经网络语音合成：azure 文本转语音使用深度神经网络技术，提供清晰发音和自然韵律的语音合成，使计算机的声音与人类录音几乎无法区分。azure 文本转语音克服了传统语音合成在口语的重音和语调方面的局限性，提供了流畅自然的语音输出。
实时语音合成与长音频异步合成：服务支持实时语音合成，允许通过语音SDK或REST API将文本转换为语音。此外，azure 文本转语音还提供长音频的异步合成功能，可以处理10分钟以上的文本转语音文件，如将电子书转换为有声读物。
预生成的神经网络语音： azure 文本转语音提供了一系列预生成的神经网络语音，这些语音在24 kHz和高保真48 kHz下可用，使得与聊天机器人和语音助手的互动更加自然和吸引人。
使用SSML改进文本转语音输出：语音合成标记语言（SSML）允许用户对文本转语音输出进行自定义，包括调整音调、添加暂停、改进发音、更改语速和调整音量等，从而提供更精细的语音控制。
多语言和区域支持： azure 文本转语音支持超过400种神经语音，涵盖140多种语言和地区，适合应用在跨国业务、语言学习等需要多语言转换的场景。
易于集成和使用：用户可以使用与非高清语音相同的SDK和REST API来生成高清语音，轻松集成到现有的应用程序中，提供了灵活的集成选项和简便的操作流程

在哪些场景会用到Azure AI的文本转语音服务？

1. 电子书和有声读物

想象一下，您拥有一本精彩的电子书，但您没有时间阅读，或者您只是想在旅途中放松身心，享受听书的乐趣。Azure 文本转语音服务可以将您的电子书或文档转换为自然流畅的语音，为您提供沉浸式的听书体验。您只需将电子书内容上传到 Azure 平台，选择合适的语音风格和语速，即可生成高质量的有声读物。这不仅方便了用户，也为出版社和作家提供了一种新的内容传播方式。

2. 语音助手和聊天机器人

AI 语音助手和聊天机器人正逐渐成为我们生活中不可或缺的一部分。它们可以帮助我们完成各种任务，例如查询信息、设定提醒、控制智能家居等。Azure 文本转语音服务可以为这些智能助手和聊天机器人提供自然流畅的语音响应，使它们更像一个真正的伙伴，与用户进行自然对话。例如，您可以使用 Azure 文本转语音服务为您的智能音箱或聊天机器人提供个性化的语音，使其更具亲切感和吸引力。

3. 视频和音频制作

在视频制作或播客中，使用合成语音可以增强内容的吸引力，并为观众提供更丰富的体验。例如，您可以使用 Azure 文本转语音服务为您的视频添加旁白，或为您的播客生成配音。您可以选择不同的语音风格和语速，以适应您的内容和目标受众。这可以节省您聘请专业配音演员的成本，并提高内容制作效率。

4. 界面朗读

对于视力受限的用户来说，使用电脑和手机等设备会带来很大的困难。Azure 文本转语音服务可以帮助他们通过语音读取屏幕上的信息，例如网页内容、电子邮件、文档等。这可以帮助他们更便捷地获取信息，并提高他们的生活质量。

5. 客户服务和呼叫中心

自动语音应答系统（IVR）和客户服务机器人可以为客户提供自动语音服务，例如，引导客户进行自助服务、提供常见问题解答等。Azure 文本转语音服务可以为这些系统提供高质量的语音，使其更具人性化，并提高客户满意度。

6. 教育和学习应用

在教育和学习应用中，Azure 文本转语音服务可以提供语音反馈和朗读功能，帮助用户更好地理解和学习。例如，在语言学习软件中，您可以使用 Azure 文本转语音服务为用户提供语音朗读和发音练习。在儿童教育应用中，您可以使用 Azure 文本转语音服务为孩子朗读故事和童谣，并提供语音互动。

使用指南

文本转语音 REST API 开发使用指南

概述

文本转语音（TTS）服务允许开发者将文本转换为合成语音。本文档提供了如何使用文本转语音 REST API 的基本指南，包括获取语音列表和将文本转换为语音的步骤。

接口地址

获取语音列表

要获取特定区域的语音列表，使用以下终结点：

GET https://<YOUR_RESOURCE_REGION>.tts.speech.microsoft.com/cognitiveservices/voices/list

请将 <YOUR_RESOURCE_REGION> 替换为您所需的区域，例如 westus。

将文本转换为语音

要将文本转换为语音，使用以下终结点：

POST https://<YOUR_RESOURCE_REGION>.tts.speech.microsoft.com/cognitiveservices/v1

同样，请将 <YOUR_RESOURCE_REGION> 替换为相应的区域。

身份验证

在使用文本转语音 REST API 之前，您需要进行身份验证。可以使用以下两种方式之一：

使用 Ocp-Apim-Subscription-Key：在请求中包含您的语音资源密钥。
使用 Bearer Token：通过向 issueToken 终结点请求获取访问令牌，并在后续请求中使用该令牌。

获取访问令牌

要获取访问令牌，请使用以下终结点：

POST https://<REGION_IDENTIFIER>.api.cognitive.microsoft.com/sts/v1.0/issueToken

将 <REGION_IDENTIFIER> 替换为与您的订阅区域相匹配的标识符。

区域和终结点

文本转语音服务支持多个区域。以下是一些可用的区域及其对应的终结点：

澳大利亚东部: https://australiaeast.tts.speech.microsoft.com
巴西南部: https://brazilsouth.tts.speech.microsoft.com
加拿大中部: https://canadacentral.tts.speech.microsoft.com
美国东部: https://eastus.tts.speech.microsoft.com
西欧: https://westeurope.tts.speech.microsoft.com

确保选择与您的语音资源区域匹配的终结点。

音频输出格式

在请求中，您可以指定音频输出格式，支持的格式包括但不限于：

riff-24khz-16bit-mono-pcm
audio-24khz-192kbitrate-mono-mp3
ogg-24khz-16bit-mono-opus

注意事项

每个请求都需包含有效的身份验证信息。
对于长文本，生成的音频长度不能超过 10 分钟。
预生成的神经网络声音和定制声音的费用不同，具体请参考语音服务定价。

后续步骤

创建免费 Azure 帐户以开始使用服务。
了解神经网络定制声音的使用方法。
探索批处理合成的功能。

通过遵循这些指南，您可以有效地使用文本转语音 REST API 将文本转换为高质量的语音输出。

详情查看链接：https://learn.microsoft.com/zh-cn/azure/ai-services/speech-service/rest-text-to-speech?tabs=streaming

产品问答

文本转语音是如何计费的？

文本转语音服务按字符计费。查看定价说明中可计费字符的定义。

文本转语音合成请求的速率限制是多少？

文本转语音的合成速率在收到更多请求时会自动调整。每个语音资源都设有默认速率限制。费率可根据业务理由进行调整，不会因费率上限增加而产生额外的费用。请在语音服务配额和限制中查看更多详细信息。

如何向最终用户披露语音是合成语音？

我们建议每个用户在使用 TTS 服务时都应遵守我们的行为准则。披露语音的合成性质有多种方式，包括隐式和显式署名。请参考披露设计准则。

如何降低语音应用的延迟？

我们为你提供了一些提示，以降低延迟并为用户提供最佳性能。请参阅使用语音 SDK 降低语音合成延迟。

TTS 支持哪些输出音频格式？

TTS 服务支持采用常用采样率的各种流式处理和非流式处理音频格式。所有 TTS 预生成的神经语音都可支持 48 kHz 和 24 kHz 的高保真音频输出。可以根据需要对音频重新采样以支持其他速率。请参阅音频输出。

是否可以自定义语音以重读特定字词？

某些语音支持调整强调，具体取决于区域设置。请参阅强调标记。

每种情绪是否可以有多种不同的强烈程度，比如悲伤、有点悲伤等？

某些语音支持调整风格程度，具体取决于区域设置。请参阅 mstts:express-as 标记。

是否可以在同一组训练数据中包含重复的文本句子？

否。该服务将标记重复的句子，并仅保留第一个导入的句子。有关脚本选择条件，请参阅录制自定义语音示例。

是否可以在同一组训练数据中包含多个风格？

建议在一组训练数据中保持一致风格。如果风格不同，请将数据放入不同的训练集中。在这种情况下，可以考虑使用神经网络定制声音的多风格语音训练功能。有关脚本选择条件，请参阅录制自定义语音示例。

通过 SSML 切换风格是否适用于神经网络定制声音？

通过 SSML 切换风格适用于预生成的多风格语音和 CNV 多风格语音。通过多风格训练，可以创建以不同风格说话的语音，还可以通过 SSML 调整这些风格。

关于我们

微软云平台

企业

微软Azure是微软公司提供的云计算服务，以即付即用和免费试用的方式，支持企业构建、部署和管理工作负载。Azure拥有丰富的产品线，包括虚拟机、AI服务、容器服务、混合云解决方案等，满足不同业务需求。其全球基础结构覆盖广泛，确保数据安全和合规性。Azure致力于帮助企业实现数字化转型，通过创新技术推动业务增长。

联系信息

服务时间： 09:00~18:00

电话号码： 400-820-6069

什么是 Azure？

Azure 云平台汇集的产品和云服务超过 200 种，旨在帮助你将新解决方案付诸实践，以便解决当今的难题，并创造未来。利用所选的工具和框架，在多个云中、在本地以及在边缘生成、运行和管理应用程序。

合作伙伴：

最可能同场景使用的其他API

短语音识别-有道专用API

【更新时间：2024.04.11】智能语音识别（Automatic Speech Recognition, ASR）采用行业领先的深度学习算法，实现将多语种语音内容转换为文字，支持60s内音频文件转写以及实时语音转写。全面满足语音导航、室内设备控制、语音搜索、直播字幕及庭审等多场景下的语音识别需求。

AI技术 > AI语音 > 语音识别

151

实时语音转文字通用API

【更新时间：2024.04.11】实时语音转文字API服务利用深度学习技术，快速准确地将语音信号转换成文字。适用于智能客服质检、会议访谈转写、游戏语音输入、课堂内容分析等场景。

开发者工具 > 音频工具

412

Azure 语音转文本专用API 免费

【更新时间：2024.04.11】Azure语音转文本利用AI将语音实时转录为多语言文本，支持定制模型提升专业术语识别，增强音频内容的可用性和价值。

AI技术 > AI语音

365

短语音识别极速版专用API

【更新时间：2024.04.11】短语音识别极速版，可将 60 秒内的语音极为快速地识别转化为文字。其广泛适用于手机语音输入、语音搜索以及人机对话等各种语音交互场景，能精准且高效地满足相关需求，为语音交互提供便捷而强大的支持。

AI技术 > AI语音 > 语音识别

101

天翼云语音合成专用API

【更新时间：2024.04.11】语音合成（Text To Speech，TTS）将文本转成拟人化的语音。支持中文语音合成，提供男、女两种音色的选择，支持自定义语调、语速等参数。

AI技术 > AI语音 > 音频编辑

134

使用指南

文本转语音 REST API 开发使用指南

概述

接口地址

获取语音列表

要获取特定区域的语音列表，使用以下终结点：

GET https://<YOUR_RESOURCE_REGION>.tts.speech.microsoft.com/cognitiveservices/voices/list

请将 <YOUR_RESOURCE_REGION> 替换为您所需的区域，例如 westus。

将文本转换为语音

要将文本转换为语音，使用以下终结点：

POST https://<YOUR_RESOURCE_REGION>.tts.speech.microsoft.com/cognitiveservices/v1

同样，请将 <YOUR_RESOURCE_REGION> 替换为相应的区域。

身份验证

在使用文本转语音 REST API 之前，您需要进行身份验证。可以使用以下两种方式之一：

使用 Ocp-Apim-Subscription-Key：在请求中包含您的语音资源密钥。
使用 Bearer Token：通过向 issueToken 终结点请求获取访问令牌，并在后续请求中使用该令牌。

获取访问令牌

要获取访问令牌，请使用以下终结点：

POST https://<REGION_IDENTIFIER>.api.cognitive.microsoft.com/sts/v1.0/issueToken

将 <REGION_IDENTIFIER> 替换为与您的订阅区域相匹配的标识符。

区域和终结点

文本转语音服务支持多个区域。以下是一些可用的区域及其对应的终结点：

澳大利亚东部: https://australiaeast.tts.speech.microsoft.com
巴西南部: https://brazilsouth.tts.speech.microsoft.com
加拿大中部: https://canadacentral.tts.speech.microsoft.com
美国东部: https://eastus.tts.speech.microsoft.com
西欧: https://westeurope.tts.speech.microsoft.com

确保选择与您的语音资源区域匹配的终结点。

音频输出格式

在请求中，您可以指定音频输出格式，支持的格式包括但不限于：

riff-24khz-16bit-mono-pcm
audio-24khz-192kbitrate-mono-mp3
ogg-24khz-16bit-mono-opus

注意事项

每个请求都需包含有效的身份验证信息。
对于长文本，生成的音频长度不能超过 10 分钟。
预生成的神经网络声音和定制声音的费用不同，具体请参考语音服务定价。

后续步骤

创建免费 Azure 帐户以开始使用服务。
了解神经网络定制声音的使用方法。
探索批处理合成的功能。

通过遵循这些指南，您可以有效地使用文本转语音 REST API 将文本转换为高质量的语音输出。

详情查看链接：https://learn.microsoft.com/zh-cn/azure/ai-services/speech-service/rest-text-to-speech?tabs=streaming

依赖服务

产品问答

文本转语音是如何计费的？

文本转语音服务按字符计费。查看定价说明中可计费字符的定义。

文本转语音合成请求的速率限制是多少？

如何向最终用户披露语音是合成语音？

我们建议每个用户在使用 TTS 服务时都应遵守我们的行为准则。披露语音的合成性质有多种方式，包括隐式和显式署名。请参考披露设计准则。

如何降低语音应用的延迟？

我们为你提供了一些提示，以降低延迟并为用户提供最佳性能。请参阅使用语音 SDK 降低语音合成延迟。

TTS 支持哪些输出音频格式？

是否可以自定义语音以重读特定字词？

某些语音支持调整强调，具体取决于区域设置。请参阅强调标记。

每种情绪是否可以有多种不同的强烈程度，比如悲伤、有点悲伤等？

某些语音支持调整风格程度，具体取决于区域设置。请参阅 mstts:express-as 标记。

是否可以在同一组训练数据中包含重复的文本句子？

否。该服务将标记重复的句子，并仅保留第一个导入的句子。有关脚本选择条件，请参阅录制自定义语音示例。

是否可以在同一组训练数据中包含多个风格？

通过 SSML 切换风格是否适用于神经网络定制声音？

通过 SSML 切换风格适用于预生成的多风格语音和 CNV 多风格语音。通过多风格训练，可以创建以不同风格说话的语音，还可以通过 SSML 调整这些风格。

关于我们

微软云平台

企业

联系信息

服务时间： 09:00~18:00

电话号码： 400-820-6069

什么是 Azure？

合作伙伴：

合作案例

最可能同场景使用的其他API

短语音识别-有道专用API

AI技术 > AI语音 > 语音识别

151

实时语音转文字通用API

开发者工具 > 音频工具

412

Azure 语音转文本专用API 免费

【更新时间：2024.04.11】Azure语音转文本利用AI将语音实时转录为多语言文本，支持定制模型提升专业术语识别，增强音频内容的可用性和价值。

AI技术 > AI语音

365

短语音识别极速版专用API

AI技术 > AI语音 > 语音识别

101

天翼云语音合成专用API

AI技术 > AI语音 > 音频编辑

134

文本转语音服务-Azure AI

什么是Azure AI的文本转语音服务?

Azure AI的文本转语音服务有哪些核心功能？

Azure AI的文本转语音服务的核心优势是什么？

在哪些场景会用到Azure AI的文本转语音服务？

文本转语音 REST API 开发使用指南

概述

接口地址

获取语音列表

将文本转换为语音

身份验证

获取访问令牌

区域和终结点

音频输出格式

注意事项

后续步骤

什么是 Azure？

文本转语音 REST API 开发使用指南

概述

接口地址

获取语音列表

将文本转换为语音

身份验证

获取访问令牌

区域和终结点

音频输出格式

注意事项

后续步骤

什么是 Azure？

API平台

API平台

API学院

公司