什么是文本转语音？

文本转语音是一种语音合成形式，可将任何文本字符串转换为语音输出。研究表明，以类似人类的声音做出响应时，人们会更自在地交流。神经网络使文本转语音系统产生的声音领域得以扩充，而无连接合成的用度或发音合成的复杂性。

将文本低延迟转换为高质量、自然发音的语音，即文本转语音API (TTS)的职能，这是数十年来一直颇具挑战性的任务。起初专为具有视觉障碍或阅读障碍的人群而开发，为使其能够聆听书面文字。如今已经用于驾驶指导、呼叫中心录音转写、会议实时转写、语音输入法、数字人、互动直播、课堂内容分析等多个业务场景。

为何选择文本转语音？

无论是语音闹钟，还是将文本信息转换为语音的汽车助手，或者是 Apple 的 Siri 和亚马逊的 Echo 等复杂的查询和响应系统，文本转语音早已融入到我们的日常生活之中。这解决了看屏幕读取的不实际或不方便等诸多用例问题。

文本转语音正在逐渐深入对话式 AI 领域，这些领域包括自动语音识别 (ASR) 和自然语言处理 (NLP)，例如语言之间的翻译。客户服务领域日益发展，语音识别系统能够处理复杂查询,在数据库中搜索答案，还能够通过文本转语音实现响应。现在，电话销售员借助这些系统，使用对话式机器人取代人工呼叫者，这些机器人可以模拟真实对话，无需人工操作员。

## 文本转语音功能支持

1、文字转语音：将文字进行语音合成，转为拟人态的声音。

2、语音定义：是否可标记添加停顿、数字、日期和时间格式以及其他发音规则，实现语音自定义。

3、音高调节：对所选语音的音高进行个性化设置。

4、讲话速度调整：调整语音的讲话速度。

5、音色定义：是否提供多语音、多种音色以适配不同场景的语音合成需求。

6、情感强度控制：是否支持自定义情感强度。

文本转语音支持的语言

不同的厂商支持的语言各不相同，例如：微软文字转语音产品支持当前大部分国家和地区的官方语言；

文本转语音集成方式

通常是2种集成方式：

1、【文本转语音API】
-是否支持在线实时合成服务，支持可发起网络请求的服务或设备的语音合成请求；
-是否支持批量合成服务，例如小说、新闻等长篇文本的批量合成；
2、【文本转语音SDK】
-轻巧简便，满足手机、智能硬件等快速集成，支持在/离线的服务调用；

文本转语音的工作原理

先进的语音合成模型均以参数神经网络为基础。文本转语音 (TTS) 合成通常分两步完成。

第一步，合成网络将文本转换为时间对齐的特征，例如频谱图或基本频率，这些特征是声带在语音中振动的频率。
第二步，声码器网络将时间对齐的特征转换为音频波形。

声码器网络将时间对齐的特征转换为音频波形。准备用于合成的输入文本需要文本分析，例如将文本转换为单词和句子，识别和扩展缩写以及辨认和分析表达式。表达式包含日期、金额和机场代码。

将文本分析的输出传递到语言分析中，用于改进发音、计算单词的持续时间、破译语音的音期结构，以及理解语法信息。

然后，将语言分析的输出输入到语音合成神经网络模型，例如 Tacotron2，该模型将文本转换为梅尔频谱图，然后输入到 Wave Glow 等神经声码器模型，从而生成自然发音的语音。

热门的 TTS 深度学习模型包括 Wavenet、Tacotron 2 和 WaveGlow。

2006 年，Google WaveNet 引入了深度学习技术，采用一种新方法，一次直接对音频信号的原始波形进行一个样本建模。其模型为概率和自回归，且每个音频样本的预测分布均以所有之前的样本为条件。WaveNet 是一个全卷积神经网络，卷积层具有各种膨胀因子，允许其感受野随深度呈指数增长。输入序列是人类说话者记录的波形。

Google WaveNet. DeepMind)

Tacotron 2 是一种神经网络架构，用于从文本中使用带有注意力的循环序列到序列模型直接进行语音合成。编码器（下图中的蓝色块）将整个文本转换为固定大小的隐藏特征表示。然后，自回归解码器（橙色块）使用此特征表示，一次生成一个频谱图帧。

用于 PyTorch 模型的 NVIDIA Tacotron 2 和 WaveGlow。 WaveGlow 是一个基于流的模型，它使用梅尔频谱图来生成语音。

在训练过程中，模型通过一系列流程学习将数据集分布转换为球形高斯分布。流的一个步骤包含一个可逆卷积，然后是一个修改后的 WaveNet 架构，该架构用作仿射耦合层。在推理期间，网络为反向网络，音频样本则从高斯分布中生成。

## 文字转语音品牌服务商

文字转语音API是人工智能大模型的一种典型应用，需要的训练数据较多，特征声音模型需要采购，对资金量的要求比较大，一般都是大企业提供该类服务，例如：