文本转语音-Microsoft

专用API

服务商： microsoft.com

【更新时间: 2024.07.18】构建自然说话的应用程序和服务。文本到语音通过定制的、逼真的语音生成器使您的品牌脱颖而出，文字转语音并使用不同的说话风格和情绪语气来适应您的使用场景。文字到语音支持多种语言。

咨询去服务商官网采购>

服务星级：2星

浏览次数

采购人数

试用次数

SLA: N/A

响应: N/A

适用于个人&企业

书签名称

确定

相似API

有道语音生成服务-文本转语音

175

智能语音合成（text-to-speech，TTS）满足一般语言的文字转语音的需求，文本到语音让您的应用或设备开口说话，让发音更自然和专业，助力提升人机交互体验。文字到语音合成广泛应用于有声阅读、翻译对话、语音导航等场景。

Text to Speech

115

使用该API可以将任何文字转语音，文字到语音使机器和应用程序能够说话。文本转语音支持多种语言，文本到语音实现语音生成。

Amazon 文本转语音服务-Polly

Amazon Polly 是一种将文本换为逼真语音的服务，借助文字转语音服务，您可以创建能够说话的应用程序，并构建全新类别的支持语音功能的产品。文字到语音支持多种语言。

API详情
定价
使用指南
常见 FAQ
关于我们
相关推荐

产品介绍

什么是Microsoft的文本转语音?

微软Azure的文本转语音服务提供了一种逼真、可定制的语音生成解决方案，支持细粒度控制和灵活部署。用户可以根据自己的需求定制语音输出。此外，Azure还提供了丰富的资源和工具来帮助用户快速开始使用和构建语音服务。

什么是Microsoft的文本转语音接口？

由服务使用方的应用程序发起，以Restful风格为主、通过公网HTTP协议调用Microsoft的文本转语音，从而实现程序的自动化交互，提高服务效率。

Microsoft的文本转语音有哪些核心功能？

逼真的合成语音实现流畅、自然的文本转语音，与人声的语调和情感相匹配。	可定制的文本说话者声音创建一个独特的人工智能语音生成器来反映您的品牌形象。
细粒度的文本对话音频控制通过轻松调整速率、音高、发音、停顿等，根据您的场景调整语音输出。	灵活部署在云端、本地或容器边缘的任何地方运行文本转语音。
定制您的语音输出微调合成语音以适合您的场景。使用语音合成标记语言 (SSML) 或音频内容创建工具定义词典并控制语音参数，例如发音、音高、速率、停顿和语调。	从云端到边缘的任何地方部署文本转语音无论您的数据位于何处，都可以运行文本转语音。使用容器将逼真的语音合成构建到针对强大的云功能和边缘位置进行优化的应用程序中。

Microsoft的文本转语音的核心优势是什么？

1. 为您的品牌打造定制声音

通过独特的定制声音让您的品牌脱颖而出。使用自定义神经语音功能开发高度逼真的语音，以实现更自然的对话界面，从 30 分钟的音频开始。

2.通过云人工智能服务推动应用创新

了解您的组织可以开始使用人工智能以快速实现价值的五种关键方法。

3.全面的隐私和安全

AI 语音是 Azure AI 服务的一部分，已通过 SOC、FedRAMP、PCI DSS、HIPAA、HITECH 和 ISO认证。随时查看和删除您的自定义语音数据和合成语音模型。您的数据在存储时会被加密。训练您的数据仍然属于您。在数据处理或音频语音生成过程中不会存储您的文本数据。

4.内置全面的安全性和合规性

Microsoft 每年在网络安全研发方面的投资超过10 亿美元。
我们雇用了 3,500 多名致力于数据安全和隐私的安全专家。

在哪些场景会用到Microsoft的文本转语音？

客户服务在呼叫中心或自动客服系统中，提供自然流畅的语音交互，提升客户体验。
	语言学习提供语言学习应用中的发音指导和听力练习材料。
会议录听可以帮助提升会议录听的效率和质量，无论是在企业内部会议、远程教育、在线研讨会还是其他需要语音输出的场合。
	多设备对话 Azure 文字转语音服务可以帮助开发者构建跨设备、无缝且一致的对话体验。
语音助手 Azure 文字转语音服务提供了强大的功能和灵活性，非常适合用于构建和增强语音助手的语音交互能力

产品价格

免费版

类别	特征	价格
语音转文本（按秒计费）	标准	每月 5 小时免费音频³
	风俗	每月免费 5 小时音频³ 端点托管：每月免费 1 个模型¹
	对话转录多通道音频^预览	每月 5 小时免费音频
文本转语音（按字符计费）	神经	每月免费 50 万个字符
语音翻译（按秒计费）	标准	每月 5 小时免费音频
说话人识别（按交易计费）	说话者验证²	每月 10,000 笔交易免费
	说话人识别²	每月 10,000 笔交易免费
	语音配置文件存储	每月 10,000 笔交易免费

即用即付：仅按使用量付费

类别	价格
语音转文本（按秒计费）	标准	实时转录：每小时1 美元快速转录^预览：每小时不适用⁹ 批量转录：每小时0.18 美元¹
	风俗	实时转录：每小时1.20 美元批量转录：每小时0.225 美元¹ 端点托管：每个模型每小时0.0538 美元自定义语音训练⁵：每计算小时 10 美元
	增强的附加功能：连续语言识别分类发音评估（韵律、语法、词汇、主题）	实时：每个功能每小时0.30 美元批量（连续语言识别、二值化）：包含在标准/自定义中（无额外费用）
	对话转录多通道音频^预览	每小时2.10 美元²
语音翻译（按秒计费）	实时语音翻译	每音频小时2.50 美元³
语音翻译（按秒计费）	视频翻译^预览	批量：每输出视频分钟不适用内容编辑：每输出视频分钟不适用个人语音：每输出视频分钟不适用
文字转语音⁸	标准语音	神经网络：每 100 万个字符15 美元神经网络 HD ⁴：每 100 万个字符不适用
	自定义语音	专业声音：合成：每 100 万个字符24 美元语音模型训练：每个计算小时52 美元，每次训练最高4,992 美元端点托管：每个模型每小时4.04 美元
	自定义语音	个人声音⁶：合成：每 100 万个字符不适用语音创建：免费语音配置文件存储：每月每 1,000 个语音配置文件不适用
	增强的附加功能：头像^预览	标准：N/A每分钟
	增强的附加功能：头像^预览	风俗：实时综合：每分钟N/A 批量综合：每分钟 N/A 端点托管：每小时每个模型 N/A
说话人识别（按交易计费）	说话者验证⁷	每 1,000 笔交易5 美元
	说话者识别⁷	每 1,000 笔交易10 美元
	语音配置文件存储	每 1,000 个语音配置文件0.20 USD（每月 10,000 个免费语音配置文件）

其他价格信息请查看：https://azure.microsoft.com/en-us/pricing/details/cognitive-services/speech-services/

使用指南

先决条件

Azure 订阅 - 免费创建订阅。
在 Azure 门户中创建语音资源。
你的语音资源密钥和地区。部署语音资源后，选择“转到资源”以查看和管理密钥。有关 Azure AI 服务资源的详细信息，请参阅获取资源密钥。

设置环境

语音 SDK 以 NuGet 包的形式提供，实现了 .NET Standard 2.0。稍后在本指南中安装语音 SDK。有关任何要求，请参阅安装语音 SDK。

设置环境变量。

必须对应用程序进行身份验证才能访问 Azure AI 服务资源。对于生产，请使用安全的方式存储和访问凭据。例如，获取语音资源的密钥后，请将其写入运行应用程序的本地计算机上的新环境变量。

提示

请不要直接在代码中包含密钥，并且绝不公开发布密钥。有关 Azure Key Vault 等更多身份验证选项，请参阅 Azure AI 服务安全性。

若要为语音资源密钥设置环境变量，请打开控制台窗口，并按照操作系统和开发环境的说明进行操作。

要设置 SPEECH_KEY 环境变量，请将“your-key”替换为你的资源的某一个密钥。
要设置 SPEECH_REGION 环境变量，请将 “your-region”替换为你的资源的某一个地区。

Windows:

setx SPEECH_KEY your-key
setx SPEECH_REGION your-region

添加环境变量后，你可能需要重启任何需要读取环境变量的程序（包括控制台窗口）。例如，如果使用 Visual Studio 作为编辑器，请在运行示例之前重启 Visual Studio。

合成到扬声器输出

按照以下步骤创建控制台应用程序并安装语音 SDK。

在需要新项目的文件夹中打开命令提示符窗口。运行以下命令，使用 .NET CLI 创建控制台应用程序。
```
dotnet new console
```
该命令会在项目目录中创建 Program.cs 文件。

使用 .NET CLI 在新项目中安装语音 SDK。

dotnet add package Microsoft.CognitiveServices.Speech

将 Program.cs 的内容替换为以下代码。

using System;
using System.IO;
using System.Threading.Tasks;
using Microsoft.CognitiveServices.Speech;
using Microsoft.CognitiveServices.Speech.Audio;

class Program 
{
    // This example requires environment variables named "SPEECH_KEY" and "SPEECH_REGION"
    static string speechKey = Environment.GetEnvironmentVariable("SPEECH_KEY");
    static string speechRegion = Environment.GetEnvironmentVariable("SPEECH_REGION");

    static void OutputSpeechSynthesisResult(SpeechSynthesisResult speechSynthesisResult, string text)
    {
        switch (speechSynthesisResult.Reason)
        {
            case ResultReason.SynthesizingAudioCompleted:
                Console.WriteLine($"Speech synthesized for text: [{text}]");
                break;
            case ResultReason.Canceled:
                var cancellation = SpeechSynthesisCancellationDetails.FromResult(speechSynthesisResult);
                Console.WriteLine($"CANCELED: Reason={cancellation.Reason}");

                if (cancellation.Reason == CancellationReason.Error)
                {
                    Console.WriteLine($"CANCELED: ErrorCode={cancellation.ErrorCode}");
                    Console.WriteLine($"CANCELED: ErrorDetails=[{cancellation.ErrorDetails}]");
                    Console.WriteLine($"CANCELED: Did you set the speech resource key and region values?");
                }
                break;
            default:
                break;
        }
    }

    async static Task Main(string[] args)
    {
        var speechConfig = SpeechConfig.FromSubscription(speechKey, speechRegion);      

        // The neural multilingual voice can speak different languages based on the input text.
        speechConfig.SpeechSynthesisVoiceName = "en-US-AvaMultilingualNeural"; 

        using (var speechSynthesizer = new SpeechSynthesizer(speechConfig))
        {
            // Get text from the console and synthesize to the default speaker.
            Console.WriteLine("Enter some text that you want to speak >");
            string text = Console.ReadLine();

            var speechSynthesisResult = await speechSynthesizer.SpeakTextAsync(text);
            OutputSpeechSynthesisResult(speechSynthesisResult, text);
        }

        Console.WriteLine("Press any key to exit...");
        Console.ReadKey();
    }
}

若要更改语音合成语言，请将 en-US-AvaMultilingualNeural 替换为另一种受支持的语音。

所有神经网络声音都是多语言的，并且能够流利地使用自己的语言和英语。例如，如果英语的输入文本为“I'm excited to try text to speech”并且你设置了 es-ES-ElviraNeural，则该文本将用带西班牙口音的英语讲出。如果语音使用的不是输入文本的语言，则语音服务不会输出合成的音频。
运行新的控制台应用程序，开始将语音合成到默认扬声器。
```
dotnet run
```
输入要朗读的一些文本。例如，键入“我对尝试文本转语音非常兴奋”。选择 Enter 键可听到合成的语音。
```
Enter some text that you want to speak >
I'm excited to try text to speech
```

详细指南请查看：https://learn.microsoft.com/zh-cn/azure/ai-services/speech-service/get-started-text-to-speech?tabs=windows%2Cterminal&pivots=programming-language-csharp

产品问答

计费如何运作？

对于语音转文本和语音翻译，使用量按一秒增量计费。对于文本转语音：使用量按字符计费。检查定价说明中字符的定义。对于自定义神经语音托管：使用量按端点每秒计费。查看定价说明中的详细信息。对于个人语音配置文件存储：使用量按每天的语音配置文件计费。查看定价说明中的详细信息。对于文本转语音头像，使用量按秒计费。对于语音转文本和文本转语音（包括 Avatar），自定义模型的端点托管按每个模型每秒计费。

什么是“自定义语音模型”？

语音服务使用户能够根据自己的声学和语言数据调整基线模型，从而生成可用于语音转文本和语音翻译的自定义语音模型。

什么是语言模型以及为什么要定制它？。

语言模型是单词序列上的概率分布。语言模型帮助系统根据单词序列本身的可能性来决定听起来相似的单词序列。例如，“识别语音”和“破坏美丽的海滩”听起来很相似，但第一个假设发生的可能性要大得多，因此语言模型会分配更高的分数。如果您希望应用程序的语音查询包含特定词汇项，例如典型语音中很少出现的产品名称或行话，那么您可能可以通过自定义语言模型来获得改进的性能。例如，如果您正在构建一个通过语音搜索 MSDN 的应用程序，“面向对象”、“命名空间”或“点网”等术语可能会比典型的语音应用程序更频繁地出现。定制语言模型将使系统能够学习这一点

什么是声学模型以及为什么要定制它？

声学模型是一种分类器，它将音频的短片段标记为每种语言的几个音素或声音单元之一。然后可以将这些音素拼接在一起形成单词。例如，单词“speech”由四个音素“sp iy ch”组成。这些分类按每秒 100 次的数量级进行。定制声学模型可以使系统学会在非典型环境中更好地识别语音。例如，如果您有一款专供仓库或工厂工人使用的应用程序，则定制的声学模型可以在这些环境中存在噪音的情况下更准确地识别语音。

什么是“自定义神经语音”？

语音服务提供各种文本转语音 (TTS) 语音字体，但自定义神经语音允许您构建适合您的需求和品牌的自定义语音。阅读博客了解更多信息。

什么是语言识别？

语言识别允许您识别口语的切换并相应地转录语音。这可以应用于音频语言未知或说话者可能说多种语言的场景。单语言识别无需额外付费。连续语言识别是一项增强的附加功能。访问文档以了解更多信息。

什么是发音评估？

发音评估评估语音发音并向说话者提供有关口语音频的准确性和流畅性的反馈。通过发音评估，语言学习者可以练习、获得即时反馈并提高发音，以便他们能够自信地说话和表达。教育工作者可以利用该功能实时评估多个说话者的发音。访问文档以了解更多信息。

关于我们

microsoft.com

企业

Microsoft（微软公司）是一家全球知名的科技公司，以其广泛的计算机软件、消费电子产品以及相关服务闻名于世。成立于1975年，由比尔·盖茨和保罗·艾伦创立，总部位于美国华盛顿州雷德蒙德。Microsoft开发和销售多种电脑软件、电子游戏机、个人电脑以及移动设备等产品。其中，Windows操作系统、Microsoft Office办公软件套件以及Bing搜索引擎等产品在全球范围内广受用户青睐。此外，Microsoft还通过Azure提供云计算服务，支持企业数字化转型和创新。

联系信息

服务时间： 00:00:00至24:00:00

电话号码： (425) 882-8080

电话号码： (425) 706-7329

公司简介

随时了解 Microsoft 的最新消息 - 包括公司基本信息、新闻、全球办公地点等。

关于我们

认识 Microsoft 员工，探索引人入胜的故事，了解塑造公司愿景的领导者。

我们的价值观

了解我们如何利用技术来创建平台和资源，造就长远的积极影响。

特色计划和项目


透过数字了解可持续发展到 2030 年，Microsoft 将实现负排碳目标。通过互动方式了解我们公司改善对环境的影响的其他方式。透过数字深入了解	公司的社会责任我们相信技术是造福人类的强大力量，并且正在努力创造一个可持续未来，使每个人都可以享受到技术带来的好处和机会。了解我们的方法	故事在 Microsoft，我们受到来自世界各地的人们的启发，他们利用技术去做富有想象力、创新以及能改变生活的事情。我们分享他们的故事。查看他们的故事	Microsoft AI 在以人为本的设计中，AI 可以扩展你的能力，解放你的思维，让你自由进行更具创造性和策略性的尝试，帮助你和你的组织达成更多成就。了解 Microsoft AI

最可能同场景使用的其他API

情感倾向分析通用API 免费

【更新时间：2024.07.18】情感倾向分析API服务是一种基于人工智能技术的工具，用于自动识别和量化文本数据（如社交媒体帖子、产品评论、新闻文章等）中蕴含的情感色彩

AI技术 > AI对话

572

Azure 语音转文本专用API 免费

【更新时间：2024.07.18】Azure语音转文本利用AI将语音实时转录为多语言文本，支持定制模型提升专业术语识别，增强音频内容的可用性和价值。

AI技术 > AI语音

202

天翼云语音合成专用API

【更新时间：2024.07.18】语音合成（Text To Speech，TTS）将文本转成拟人化的语音。支持中文语音合成，提供男、女两种音色的选择，支持自定义语调、语速等参数。

AI技术 > AI语音 > 音频编辑

多语言文本翻译-APILayer 专用API 免费

【更新时间：2024.07.18】多语言文本翻译接口-APILayer，其能够实现 47 种语言文本翻译。它可以将任何给定的文本从这 47 种语言中进行相互翻译，精准且高效，能很好地满足不同场景下对多语言文本翻译的需求，带来极大的便利。

生活服务 > 语言翻译

446

Phrase 短语语言AI 专用API

【更新时间：2024.07.18】Language AI 彻底改变了机器翻译，自动为每种场景选择最佳翻译引擎，以提供无与伦比的质量并降低翻译成本。

生活服务 > 语言翻译

产品价格

免费版

类别	特征	价格
语音转文本（按秒计费）	标准	每月 5 小时免费音频³
	风俗	每月免费 5 小时音频³ 端点托管：每月免费 1 个模型¹
	对话转录多通道音频^预览	每月 5 小时免费音频
文本转语音（按字符计费）	神经	每月免费 50 万个字符
语音翻译（按秒计费）	标准	每月 5 小时免费音频
说话人识别（按交易计费）	说话者验证²	每月 10,000 笔交易免费
	说话人识别²	每月 10,000 笔交易免费
	语音配置文件存储	每月 10,000 笔交易免费

即用即付：仅按使用量付费

类别	价格
语音转文本（按秒计费）	标准	实时转录：每小时1 美元快速转录^预览：每小时不适用⁹ 批量转录：每小时0.18 美元¹
	风俗	实时转录：每小时1.20 美元批量转录：每小时0.225 美元¹ 端点托管：每个模型每小时0.0538 美元自定义语音训练⁵：每计算小时 10 美元
	增强的附加功能：连续语言识别分类发音评估（韵律、语法、词汇、主题）	实时：每个功能每小时0.30 美元批量（连续语言识别、二值化）：包含在标准/自定义中（无额外费用）
	对话转录多通道音频^预览	每小时2.10 美元²
语音翻译（按秒计费）	实时语音翻译	每音频小时2.50 美元³
语音翻译（按秒计费）	视频翻译^预览	批量：每输出视频分钟不适用内容编辑：每输出视频分钟不适用个人语音：每输出视频分钟不适用
文字转语音⁸	标准语音	神经网络：每 100 万个字符15 美元神经网络 HD ⁴：每 100 万个字符不适用
	自定义语音	专业声音：合成：每 100 万个字符24 美元语音模型训练：每个计算小时52 美元，每次训练最高4,992 美元端点托管：每个模型每小时4.04 美元
	自定义语音	个人声音⁶：合成：每 100 万个字符不适用语音创建：免费语音配置文件存储：每月每 1,000 个语音配置文件不适用
	增强的附加功能：头像^预览	标准：N/A每分钟
	增强的附加功能：头像^预览	风俗：实时综合：每分钟N/A 批量综合：每分钟 N/A 端点托管：每小时每个模型 N/A
说话人识别（按交易计费）	说话者验证⁷	每 1,000 笔交易5 美元
	说话者识别⁷	每 1,000 笔交易10 美元
	语音配置文件存储	每 1,000 个语音配置文件0.20 USD（每月 10,000 个免费语音配置文件）

其他价格信息请查看：https://azure.microsoft.com/en-us/pricing/details/cognitive-services/speech-services/

使用指南

先决条件

Azure 订阅 - 免费创建订阅。
在 Azure 门户中创建语音资源。
你的语音资源密钥和地区。部署语音资源后，选择“转到资源”以查看和管理密钥。有关 Azure AI 服务资源的详细信息，请参阅获取资源密钥。

设置环境

语音 SDK 以 NuGet 包的形式提供，实现了 .NET Standard 2.0。稍后在本指南中安装语音 SDK。有关任何要求，请参阅安装语音 SDK。

设置环境变量。

提示

请不要直接在代码中包含密钥，并且绝不公开发布密钥。有关 Azure Key Vault 等更多身份验证选项，请参阅 Azure AI 服务安全性。

若要为语音资源密钥设置环境变量，请打开控制台窗口，并按照操作系统和开发环境的说明进行操作。

要设置 SPEECH_KEY 环境变量，请将“your-key”替换为你的资源的某一个密钥。
要设置 SPEECH_REGION 环境变量，请将 “your-region”替换为你的资源的某一个地区。

Windows:

setx SPEECH_KEY your-key
setx SPEECH_REGION your-region

合成到扬声器输出

按照以下步骤创建控制台应用程序并安装语音 SDK。

在需要新项目的文件夹中打开命令提示符窗口。运行以下命令，使用 .NET CLI 创建控制台应用程序。
```
dotnet new console
```
该命令会在项目目录中创建 Program.cs 文件。

使用 .NET CLI 在新项目中安装语音 SDK。

dotnet add package Microsoft.CognitiveServices.Speech

将 Program.cs 的内容替换为以下代码。

using System;
using System.IO;
using System.Threading.Tasks;
using Microsoft.CognitiveServices.Speech;
using Microsoft.CognitiveServices.Speech.Audio;

class Program 
{
    // This example requires environment variables named "SPEECH_KEY" and "SPEECH_REGION"
    static string speechKey = Environment.GetEnvironmentVariable("SPEECH_KEY");
    static string speechRegion = Environment.GetEnvironmentVariable("SPEECH_REGION");

    static void OutputSpeechSynthesisResult(SpeechSynthesisResult speechSynthesisResult, string text)
    {
        switch (speechSynthesisResult.Reason)
        {
            case ResultReason.SynthesizingAudioCompleted:
                Console.WriteLine($"Speech synthesized for text: [{text}]");
                break;
            case ResultReason.Canceled:
                var cancellation = SpeechSynthesisCancellationDetails.FromResult(speechSynthesisResult);
                Console.WriteLine($"CANCELED: Reason={cancellation.Reason}");

                if (cancellation.Reason == CancellationReason.Error)
                {
                    Console.WriteLine($"CANCELED: ErrorCode={cancellation.ErrorCode}");
                    Console.WriteLine($"CANCELED: ErrorDetails=[{cancellation.ErrorDetails}]");
                    Console.WriteLine($"CANCELED: Did you set the speech resource key and region values?");
                }
                break;
            default:
                break;
        }
    }

    async static Task Main(string[] args)
    {
        var speechConfig = SpeechConfig.FromSubscription(speechKey, speechRegion);      

        // The neural multilingual voice can speak different languages based on the input text.
        speechConfig.SpeechSynthesisVoiceName = "en-US-AvaMultilingualNeural"; 

        using (var speechSynthesizer = new SpeechSynthesizer(speechConfig))
        {
            // Get text from the console and synthesize to the default speaker.
            Console.WriteLine("Enter some text that you want to speak >");
            string text = Console.ReadLine();

            var speechSynthesisResult = await speechSynthesizer.SpeakTextAsync(text);
            OutputSpeechSynthesisResult(speechSynthesisResult, text);
        }

        Console.WriteLine("Press any key to exit...");
        Console.ReadKey();
    }
}

若要更改语音合成语言，请将 en-US-AvaMultilingualNeural 替换为另一种受支持的语音。

所有神经网络声音都是多语言的，并且能够流利地使用自己的语言和英语。例如，如果英语的输入文本为“I'm excited to try text to speech”并且你设置了 es-ES-ElviraNeural，则该文本将用带西班牙口音的英语讲出。如果语音使用的不是输入文本的语言，则语音服务不会输出合成的音频。
运行新的控制台应用程序，开始将语音合成到默认扬声器。
```
dotnet run
```
输入要朗读的一些文本。例如，键入“我对尝试文本转语音非常兴奋”。选择 Enter 键可听到合成的语音。
```
Enter some text that you want to speak >
I'm excited to try text to speech
```

详细指南请查看：https://learn.microsoft.com/zh-cn/azure/ai-services/speech-service/get-started-text-to-speech?tabs=windows%2Cterminal&pivots=programming-language-csharp

依赖服务

产品问答

计费如何运作？

什么是“自定义语音模型”？

语音服务使用户能够根据自己的声学和语言数据调整基线模型，从而生成可用于语音转文本和语音翻译的自定义语音模型。

什么是语言模型以及为什么要定制它？。

什么是声学模型以及为什么要定制它？

什么是“自定义神经语音”？

语音服务提供各种文本转语音 (TTS) 语音字体，但自定义神经语音允许您构建适合您的需求和品牌的自定义语音。阅读博客了解更多信息。

什么是语言识别？

什么是发音评估？

关于我们

microsoft.com

企业

联系信息

服务时间： 00:00:00至24:00:00

电话号码： (425) 882-8080

电话号码： (425) 706-7329

公司简介

随时了解 Microsoft 的最新消息 - 包括公司基本信息、新闻、全球办公地点等。

关于我们

认识 Microsoft 员工，探索引人入胜的故事，了解塑造公司愿景的领导者。

我们的价值观

了解我们如何利用技术来创建平台和资源，造就长远的积极影响。

特色计划和项目


透过数字了解可持续发展到 2030 年，Microsoft 将实现负排碳目标。通过互动方式了解我们公司改善对环境的影响的其他方式。透过数字深入了解	公司的社会责任我们相信技术是造福人类的强大力量，并且正在努力创造一个可持续未来，使每个人都可以享受到技术带来的好处和机会。了解我们的方法	故事在 Microsoft，我们受到来自世界各地的人们的启发，他们利用技术去做富有想象力、创新以及能改变生活的事情。我们分享他们的故事。查看他们的故事	Microsoft AI 在以人为本的设计中，AI 可以扩展你的能力，解放你的思维，让你自由进行更具创造性和策略性的尝试，帮助你和你的组织达成更多成就。了解 Microsoft AI

最可能同场景使用的其他API

情感倾向分析通用API 免费

AI技术 > AI对话

572

Azure 语音转文本专用API 免费

【更新时间：2024.07.18】Azure语音转文本利用AI将语音实时转录为多语言文本，支持定制模型提升专业术语识别，增强音频内容的可用性和价值。

AI技术 > AI语音

202

天翼云语音合成专用API

AI技术 > AI语音 > 音频编辑

多语言文本翻译-APILayer 专用API 免费

生活服务 > 语言翻译

446

Phrase 短语语言AI 专用API

【更新时间：2024.07.18】Language AI 彻底改变了机器翻译，自动为每种场景选择最佳翻译引擎，以提供无与伦比的质量并降低翻译成本。

生活服务 > 语言翻译

逼真的合成语音实现流畅、自然的文本转语音，与人声的语调和情感相匹配。	可定制的文本说话者声音创建一个独特的人工智能语音生成器来反映您的品牌形象。
细粒度的文本对话音频控制通过轻松调整速率、音高、发音、停顿等，根据您的场景调整语音输出。	灵活部署在云端、本地或容器边缘的任何地方运行文本转语音。
定制您的语音输出微调合成语音以适合您的场景。使用语音合成标记语言 (SSML) 或音频内容创建工具定义词典并控制语音参数，例如发音、音高、速率、停顿和语调。	从云端到边缘的任何地方部署文本转语音无论您的数据位于何处，都可以运行文本转语音。使用容器将逼真的语音合成构建到针对强大的云功能和边缘位置进行优化的应用程序中。


透过数字了解可持续发展到 2030 年，Microsoft 将实现负排碳目标。通过互动方式了解我们公司改善对环境的影响的其他方式。透过数字深入了解	公司的社会责任我们相信技术是造福人类的强大力量，并且正在努力创造一个可持续未来，使每个人都可以享受到技术带来的好处和机会。了解我们的方法	故事在 Microsoft，我们受到来自世界各地的人们的启发，他们利用技术去做富有想象力、创新以及能改变生活的事情。我们分享他们的故事。查看他们的故事	Microsoft AI 在以人为本的设计中，AI 可以扩展你的能力，解放你的思维，让你自由进行更具创造性和策略性的尝试，帮助你和你的组织达成更多成就。了解 Microsoft AI


透过数字了解可持续发展到 2030 年，Microsoft 将实现负排碳目标。通过互动方式了解我们公司改善对环境的影响的其他方式。透过数字深入了解	公司的社会责任我们相信技术是造福人类的强大力量，并且正在努力创造一个可持续未来，使每个人都可以享受到技术带来的好处和机会。了解我们的方法	故事在 Microsoft，我们受到来自世界各地的人们的启发，他们利用技术去做富有想象力、创新以及能改变生活的事情。我们分享他们的故事。查看他们的故事	Microsoft AI 在以人为本的设计中，AI 可以扩展你的能力，解放你的思维，让你自由进行更具创造性和策略性的尝试，帮助你和你的组织达成更多成就。了解 Microsoft AI

文本转语音-Microsoft

什么是Microsoft的文本转语音?

什么是Microsoft的文本转语音接口？

Microsoft的文本转语音有哪些核心功能？

逼真的合成语音

可定制的文本说话者声音

细粒度的文本对话音频控制

灵活部署

定制您的语音输出

从云端到边缘的任何地方部署文本转语音

Microsoft的文本转语音的核心优势是什么？

在哪些场景会用到Microsoft的文本转语音？

即用即付：仅按使用量付费

先决条件

设置环境

设置环境变量。

合成到扬声器输出

公司简介

关于我们

我们的价值观

特色计划和项目

透过数字了解可持续发展

公司的社会责任

故事

Microsoft AI

即用即付：仅按使用量付费

先决条件

设置环境

设置环境变量。

合成到扬声器输出

公司简介

关于我们

我们的价值观

特色计划和项目

透过数字了解可持续发展

公司的社会责任

故事

Microsoft AI

API平台

API平台

API学院

公司