文本转语音-Microsoft

文本转语音-Microsoft

专用API
服务商 服务商: Microsoft
【更新时间: 2024.07.18】 构建自然说话的应用程序和服务。文本到语音通过定制的、逼真的语音生成器使您的品牌脱颖而出,文字转语音并使用不同的说话风格和情绪语气来适应您的使用场景。文字到语音支持多种语言。
服务星级:2星
⭐ ⭐ 🌟 🌟 🌟 🌟 🌟
调用次数
0
集成人数
0
商用人数
0
! SLA: N/A
! 响应: N/A
! 适用于个人&企业
收藏
×
完成
取消
×
书签名称
确定
<
产品介绍
>

什么是Microsoft的文本转语音?

微软Azure的文本转语音服务提供了一种逼真、可定制的语音生成解决方案,支持细粒度控制和灵活部署。用户可以根据自己的需求定制语音输出。此外,Azure还提供了丰富的资源和工具来帮助用户快速开始使用和构建语音服务。

什么是Microsoft的文本转语音?

由服务使用方的应用程序发起,以Restful风格为主、通过公网HTTP协议调用Microsoft的文本转语音,从而实现程序的自动化交互,提高服务效率。

Microsoft的文本转语音有哪些核心功能?

逼真的合成语音

实现流畅、自然的文本转语音,与人声的语调和情感相匹配。

可定制的文本说话者声音

创建一个独特的人工智能语音生成器来反映您的品牌形象。

细粒度的文本对话音频控制

通过轻松调整速率、音高、发音、停顿等,根据您的场景调整语音输出。

灵活部署

在云端、本地或容器边缘的任何地方运行文本转语音。

定制您的语音输出

微调合成语音以适合您的场景。 使用语音合成标记语言 (SSML) 或 音频内容创建工具定义词典 并控制语音参数,例如发音、音高、速率、停顿和语调 。

从云端到边缘的任何地方部署文本转语音

无论您的数据位于何处,都可以运行文本转语音。使用容器将逼真的语音合成构建到针对强大的云功能和边缘位置进行优化的应用程序中 。

Microsoft的文本转语音的核心优势是什么?

1. 为您的品牌打造定制声音

  • 通过独特的 定制声音让您的品牌脱颖而出。使用自定义神经语音功能开发高度逼真的语音,以实现更自然的对话界面,从 30 分钟的音频开始。

2.通过云人工智能服务推动应用创新

  • 了解您的组织可以开始使用人工智能以快速实现价值的五种关键方法。

3.全面的隐私和安全

  • AI 语音是 Azure AI 服务的一部分,已  通过 SOC、FedRAMP、PCI DSS、HIPAA、HITECH 和 ISO认证。随时查看和删除您的自定义语音数据和合成语音模型。您的数据在存储时会被加密。训练您的数据仍然属于您。在数据处理或音频语音生成过程中不会存储您的文本数据。

4.内置全面的安全性和合规性

  • Microsoft 每年在网络安全研发方面的投资超过10 亿美元。
  • 我们雇用了 3,500 多名致力于数据安全和隐私的安全专家。

在哪些场景会用到Microsoft的文本转语音?

客户服务

在呼叫中心或自动客服系统中,提供自然流畅的语音交互,提升客户体验。

语言学习

提供语言学习应用中的发音指导和听力练习材料。

会议录听

可以帮助提升会议录听的效率和质量,无论是在企业内部会议、远程教育、在线研讨会还是其他需要语音输出的场合。

多设备对话

Azure 文字转语音服务可以帮助开发者构建跨设备、无缝且一致的对话体验。

语音助手

Azure 文字转语音服务提供了强大的功能和灵活性,非常适合用于构建和增强语音助手的语音交互能力

 

<
产品价格
>

免费版

类别 特征 价格
语音转文本
(按秒计费)
标准 每月 5 小时免费音频3
风俗 每月免费 5 小时音频3
端点托管:每月免费 1 个模型1
对话转录多通道音频预览 每月 5 小时免费音频
文本转语音
(按字符计费)
神经 每月免费 50 万个字符
语音翻译
(按秒计费)
标准 每月 5 小时免费音频
说话人识别
(按交易计费)
说话者验证2 每月 10,000 笔交易免费
说话人识别2 每月 10,000 笔交易免费
语音配置文件存储 每月 10,000 笔交易免费

即用即付:仅按使用量付费

类别 价格
语音转文本
(按秒计费)
标准 实时转录:每小时1 美元
快速转录预览每小时不适用9
批量转录:每小时0.18 美元1
风俗 实时转录:每小时1.20 美元
批量转录:每小时0.225 美元1
端点托管:每个模型每小时0.0538 美元
自定义语音训练5每计算小时 10 美元
增强的附加功能:
  • 连续语言识别
  • 分类
  • 发音评估(韵律、语法、词汇、主题)
实时:每个功能每小时0.30 美元
批量(连续语言识别、二值化):包含在标准/自定义中(无额外费用)
对话转录多通道音频预览 每小时2.10 美元2
语音翻译
(按秒计费)
实时语音翻译 每音频小时2.50 美元3
视频翻译预览 批量:每输出视频分钟不适用
内容编辑:每输出视频分钟不适用
个人语音:每输出视频分钟 不适用
文字转语音8 标准语音 神经网络:每 100 万个字符15 美元
神经网络 HD 4每 100 万个字符 不适用
自定义语音 专业声音:
合成:每 100 万个字符24 美元
语音模型训练:每个计算小时52 美元,每次训练最高4,992 美元
端点托管:每个模型每小时4.04 美元
个人声音6
合成:每 100 万个字符不适用
语音创建:免费
语音配置文件存储:每月每 1,000 个语音配置文件 不适用
增强的附加功能:头像预览 标准:N/A每分钟
风俗:
实时综合:每分钟N/A
批量综合:每分钟 N/A
端点托管:每小时每个模型 N/A
说话人识别
(按交易计费)
说话者验证7 每 1,000 笔交易5 美元
说话者识别7 每 1,000 笔交易10 美元
语音配置文件存储 每 1,000 个语音配置文件0.20 USD(每月 10,000 个免费语音配置文件)

 

其他价格信息请查看:https://azure.microsoft.com/en-us/pricing/details/cognitive-services/speech-services/

<
使用指南
>

先决条件

  • Azure 订阅 - 免费创建订阅
  • 在 Azure 门户中创建语音资源
  • 你的语音资源密钥和地区。 部署语音资源后,选择“转到资源”以查看和管理密钥。 有关 Azure AI 服务资源的详细信息,请参阅获取资源密钥

 

设置环境

语音 SDK 以 NuGet 包的形式提供,实现了 .NET Standard 2.0。 稍后在本指南中安装语音 SDK。 有关任何要求,请参阅安装语音 SDK

 

设置环境变量。

必须对应用程序进行身份验证才能访问 Azure AI 服务资源。 对于生产,请使用安全的方式存储和访问凭据。 例如,获取语音资源的密钥后,请将其写入运行应用程序的本地计算机上的新环境变量。

 提示

请不要直接在代码中包含密钥,并且绝不公开发布密钥。 有关 Azure Key Vault 等更多身份验证选项,请参阅 Azure AI 服务安全性

若要为语音资源密钥设置环境变量,请打开控制台窗口,并按照操作系统和开发环境的说明进行操作。

  • 要设置 SPEECH_KEY 环境变量,请将“your-key”替换为你的资源的某一个密钥。
  • 要设置 SPEECH_REGION 环境变量,请将 “your-region”替换为你的资源的某一个地区。

 

Windows:

setx SPEECH_KEY your-key
setx SPEECH_REGION your-region

添加环境变量后,你可能需要重启任何需要读取环境变量的程序(包括控制台窗口)。 例如,如果使用 Visual Studio 作为编辑器,请在运行示例之前重启 Visual Studio。

 

合成到扬声器输出

按照以下步骤创建控制台应用程序并安装语音 SDK。

  1. 在需要新项目的文件夹中打开命令提示符窗口。 运行以下命令,使用 .NET CLI 创建控制台应用程序。

    dotnet new console

    该命令会在项目目录中创建 Program.cs 文件。

  2. 使用 .NET CLI 在新项目中安装语音 SDK。
    dotnet add package Microsoft.CognitiveServices.Speech
  3. 将 Program.cs 的内容替换为以下代码。
    using System;
    using System.IO;
    using System.Threading.Tasks;
    using Microsoft.CognitiveServices.Speech;
    using Microsoft.CognitiveServices.Speech.Audio;
    
    class Program 
    {
        // This example requires environment variables named "SPEECH_KEY" and "SPEECH_REGION"
        static string speechKey = Environment.GetEnvironmentVariable("SPEECH_KEY");
        static string speechRegion = Environment.GetEnvironmentVariable("SPEECH_REGION");
    
        static void OutputSpeechSynthesisResult(SpeechSynthesisResult speechSynthesisResult, string text)
        {
            switch (speechSynthesisResult.Reason)
            {
                case ResultReason.SynthesizingAudioCompleted:
                    Console.WriteLine($"Speech synthesized for text: [{text}]");
                    break;
                case ResultReason.Canceled:
                    var cancellation = SpeechSynthesisCancellationDetails.FromResult(speechSynthesisResult);
                    Console.WriteLine($"CANCELED: Reason={cancellation.Reason}");
    
                    if (cancellation.Reason == CancellationReason.Error)
                    {
                        Console.WriteLine($"CANCELED: ErrorCode={cancellation.ErrorCode}");
                        Console.WriteLine($"CANCELED: ErrorDetails=[{cancellation.ErrorDetails}]");
                        Console.WriteLine($"CANCELED: Did you set the speech resource key and region values?");
                    }
                    break;
                default:
                    break;
            }
        }
    
        async static Task Main(string[] args)
        {
            var speechConfig = SpeechConfig.FromSubscription(speechKey, speechRegion);      
    
            // The neural multilingual voice can speak different languages based on the input text.
            speechConfig.SpeechSynthesisVoiceName = "en-US-AvaMultilingualNeural"; 
    
            using (var speechSynthesizer = new SpeechSynthesizer(speechConfig))
            {
                // Get text from the console and synthesize to the default speaker.
                Console.WriteLine("Enter some text that you want to speak >");
                string text = Console.ReadLine();
    
                var speechSynthesisResult = await speechSynthesizer.SpeakTextAsync(text);
                OutputSpeechSynthesisResult(speechSynthesisResult, text);
            }
    
            Console.WriteLine("Press any key to exit...");
            Console.ReadKey();
        }
    }
  4. 若要更改语音合成语言,请将 en-US-AvaMultilingualNeural 替换为另一种受支持的语音

    所有神经网络声音都是多语言的,并且能够流利地使用自己的语言和英语。 例如,如果英语的输入文本为“I'm excited to try text to speech”并且你设置了 es-ES-ElviraNeural,则该文本将用带西班牙口音的英语讲出。 如果语音使用的不是输入文本的语言,则语音服务不会输出合成的音频。

  5. 运行新的控制台应用程序,开始将语音合成到默认扬声器。
    dotnet run
  6. 输入要朗读的一些文本。 例如,键入“我对尝试文本转语音非常兴奋”。 选择 Enter 键可听到合成的语音。
    Enter some text that you want to speak >
    I'm excited to try text to speech

 

详细指南请查看:https://learn.microsoft.com/zh-cn/azure/ai-services/speech-service/get-started-text-to-speech?tabs=windows%2Cterminal&pivots=programming-language-csharp

<
产品问答
>
?
计费如何运作?
对于语音转文本和语音翻译,使用量按一秒增量计费。 对于文本转语音:使用量按字符计费。检查定价说明中字符的定义。 对于自定义神经语音托管:使用量按端点每秒计费。查看定价说明中的详细信息。 对于个人语音配置文件存储:使用量按每天的语音配置文件计费。查看定价说明中的详细信息。 对于文本转语音头像,使用量按秒计费。 对于语音转文本和文本转语音(包括 Avatar),自定义模型的端点托管按每个模型每秒计费。
?
什么是“自定义语音模型”?
语音服务使用户能够根据自己的声学和语言数据调整基线模型,从而生成可用于语音转文本和语音翻译的自定义语音模型。
?
什么是语言模型以及为什么要定制它? 。
语言模型是单词序列上的概率分布。语言模型帮助系统根据单词序列本身的可能性来决定听起来相似的单词序列。例如,“识别语音”和“破坏美丽的海滩”听起来很相似,但第一个假设发生的可能性要大得多,因此语言模型会分配更高的分数。如果您希望应用程序的语音查询包含特定词汇项,例如典型语音中很少出现的产品名称或行话,那么您可能可以通过自定义语言模型来获得改进的性能。例如,如果您正在构建一个通过语音搜索 MSDN 的应用程序,“面向对象”、“命名空间”或“点网”等术语可能会比典型的语音应用程序更频繁地出现。定制语言模型将使系统能够学习这一点
?
什么是声学模型以及为什么要定制它?
声学模型是一种分类器,它将音频的短片段标记为每种语言的几个音素或声音单元之一。然后可以将这些音素拼接在一起形成单词。例如,单词“speech”由四个音素“sp iy ch”组成。这些分类按每秒 100 次的数量级进行。定制声学模型可以使系统学会在非典型环境中更好地识别语音。例如,如果您有一款专供仓库或工厂工人使用的应用程序,则定制的声学模型可以在这些环境中存在噪音的情况下更准确地识别语音。
?
什么是“自定义神经语音”?
语音服务提供各种文本转语音 (TTS) 语音字体,但自定义神经语音允许您构建适合您的需求和品牌的自定义语音。阅读博客了解更多信息。
?
什么是语言识别?
语言识别允许您识别口语的切换并相应地转录语音。这可以应用于音频语言未知或说话者可能说多种语言的场景。单语言识别无需额外付费。连续语言识别是一项增强的附加功能。访问文档以了解更多信息。
?
什么是发音评估?
发音评估评估语音发音并向说话者提供有关口语音频的准确性和流畅性的反馈。通过发音评估,语言学习者可以练习、获得即时反馈并提高发音,以便他们能够自信地说话和表达。教育工作者可以利用该功能实时评估多个说话者的发音。访问文档以了解更多信息。
<
关于我们
>
Microsoft(微软公司)是一家全球知名的科技公司,以其广泛的计算机软件、消费电子产品以及相关服务闻名于世。成立于1975年,由比尔·盖茨和保罗·艾伦创立,总部位于美国华盛顿州雷德蒙德。Microsoft开发和销售多种电脑软件、电子游戏机、个人电脑以及移动设备等产品。其中,Windows操作系统、Microsoft Office办公软件套件以及Bing搜索引擎等产品在全球范围内广受用户青睐。此外,Microsoft还通过Azure提供云计算服务,支持企业数字化转型和创新。
联系信息
服务时间: 00:00:00至24:00:00
电话号码: (425) 882-8080
电话号码: (425) 706-7329

 

公司简介

随时了解 Microsoft 的最新消息 - 包括公司基本信息、新闻、全球办公地点等。

 

 

关于我们

认识 Microsoft 员工,探索引人入胜的故事,了解塑造公司愿景的领导者。

 

 

我们的价值观

了解我们如何利用技术来创建平台和资源,造就长远的积极影响。

 

特色计划和项目

透过数字了解可持续发展

到 2030 年,Microsoft 将实现负排碳目标。 通过互动方式了解我们公司改善对环境的影响的其他方式。

透过数字深入了解 

公司的社会责任

我们相信技术是造福人类的强大力量,并且正在努力创造一个可持续未来,使每个人都可以享受到技术带来的好处和机会。

了解我们的方法 

故事

在 Microsoft,我们受到来自世界各地的人们的启发,他们利用技术去做富有想象力、创新以及能改变生活的事情。 我们分享他们的故事。

查看他们的故事 

Microsoft AI

在以人为本的设计中,AI 可以扩展你的能力,解放你的思维,让你自由进行更具创造性和策略性的尝试,帮助你和你的组织达成更多成就。

了解 Microsoft AI 
<
最可能同场景使用的其他API
>
API接口列表
<
产品价格
>

免费版

类别 特征 价格
语音转文本
(按秒计费)
标准 每月 5 小时免费音频3
风俗 每月免费 5 小时音频3
端点托管:每月免费 1 个模型1
对话转录多通道音频预览 每月 5 小时免费音频
文本转语音
(按字符计费)
神经 每月免费 50 万个字符
语音翻译
(按秒计费)
标准 每月 5 小时免费音频
说话人识别
(按交易计费)
说话者验证2 每月 10,000 笔交易免费
说话人识别2 每月 10,000 笔交易免费
语音配置文件存储 每月 10,000 笔交易免费

即用即付:仅按使用量付费

类别 价格
语音转文本
(按秒计费)
标准 实时转录:每小时1 美元
快速转录预览每小时不适用9
批量转录:每小时0.18 美元1
风俗 实时转录:每小时1.20 美元
批量转录:每小时0.225 美元1
端点托管:每个模型每小时0.0538 美元
自定义语音训练5每计算小时 10 美元
增强的附加功能:
  • 连续语言识别
  • 分类
  • 发音评估(韵律、语法、词汇、主题)
实时:每个功能每小时0.30 美元
批量(连续语言识别、二值化):包含在标准/自定义中(无额外费用)
对话转录多通道音频预览 每小时2.10 美元2
语音翻译
(按秒计费)
实时语音翻译 每音频小时2.50 美元3
视频翻译预览 批量:每输出视频分钟不适用
内容编辑:每输出视频分钟不适用
个人语音:每输出视频分钟 不适用
文字转语音8 标准语音 神经网络:每 100 万个字符15 美元
神经网络 HD 4每 100 万个字符 不适用
自定义语音 专业声音:
合成:每 100 万个字符24 美元
语音模型训练:每个计算小时52 美元,每次训练最高4,992 美元
端点托管:每个模型每小时4.04 美元
个人声音6
合成:每 100 万个字符不适用
语音创建:免费
语音配置文件存储:每月每 1,000 个语音配置文件 不适用
增强的附加功能:头像预览 标准:N/A每分钟
风俗:
实时综合:每分钟N/A
批量综合:每分钟 N/A
端点托管:每小时每个模型 N/A
说话人识别
(按交易计费)
说话者验证7 每 1,000 笔交易5 美元
说话者识别7 每 1,000 笔交易10 美元
语音配置文件存储 每 1,000 个语音配置文件0.20 USD(每月 10,000 个免费语音配置文件)

 

其他价格信息请查看:https://azure.microsoft.com/en-us/pricing/details/cognitive-services/speech-services/

<
使用指南
>

先决条件

  • Azure 订阅 - 免费创建订阅
  • 在 Azure 门户中创建语音资源
  • 你的语音资源密钥和地区。 部署语音资源后,选择“转到资源”以查看和管理密钥。 有关 Azure AI 服务资源的详细信息,请参阅获取资源密钥

 

设置环境

语音 SDK 以 NuGet 包的形式提供,实现了 .NET Standard 2.0。 稍后在本指南中安装语音 SDK。 有关任何要求,请参阅安装语音 SDK

 

设置环境变量。

必须对应用程序进行身份验证才能访问 Azure AI 服务资源。 对于生产,请使用安全的方式存储和访问凭据。 例如,获取语音资源的密钥后,请将其写入运行应用程序的本地计算机上的新环境变量。

 提示

请不要直接在代码中包含密钥,并且绝不公开发布密钥。 有关 Azure Key Vault 等更多身份验证选项,请参阅 Azure AI 服务安全性

若要为语音资源密钥设置环境变量,请打开控制台窗口,并按照操作系统和开发环境的说明进行操作。

  • 要设置 SPEECH_KEY 环境变量,请将“your-key”替换为你的资源的某一个密钥。
  • 要设置 SPEECH_REGION 环境变量,请将 “your-region”替换为你的资源的某一个地区。

 

Windows:

setx SPEECH_KEY your-key
setx SPEECH_REGION your-region

添加环境变量后,你可能需要重启任何需要读取环境变量的程序(包括控制台窗口)。 例如,如果使用 Visual Studio 作为编辑器,请在运行示例之前重启 Visual Studio。

 

合成到扬声器输出

按照以下步骤创建控制台应用程序并安装语音 SDK。

  1. 在需要新项目的文件夹中打开命令提示符窗口。 运行以下命令,使用 .NET CLI 创建控制台应用程序。

    dotnet new console

    该命令会在项目目录中创建 Program.cs 文件。

  2. 使用 .NET CLI 在新项目中安装语音 SDK。
    dotnet add package Microsoft.CognitiveServices.Speech
  3. 将 Program.cs 的内容替换为以下代码。
    using System;
    using System.IO;
    using System.Threading.Tasks;
    using Microsoft.CognitiveServices.Speech;
    using Microsoft.CognitiveServices.Speech.Audio;
    
    class Program 
    {
        // This example requires environment variables named "SPEECH_KEY" and "SPEECH_REGION"
        static string speechKey = Environment.GetEnvironmentVariable("SPEECH_KEY");
        static string speechRegion = Environment.GetEnvironmentVariable("SPEECH_REGION");
    
        static void OutputSpeechSynthesisResult(SpeechSynthesisResult speechSynthesisResult, string text)
        {
            switch (speechSynthesisResult.Reason)
            {
                case ResultReason.SynthesizingAudioCompleted:
                    Console.WriteLine($"Speech synthesized for text: [{text}]");
                    break;
                case ResultReason.Canceled:
                    var cancellation = SpeechSynthesisCancellationDetails.FromResult(speechSynthesisResult);
                    Console.WriteLine($"CANCELED: Reason={cancellation.Reason}");
    
                    if (cancellation.Reason == CancellationReason.Error)
                    {
                        Console.WriteLine($"CANCELED: ErrorCode={cancellation.ErrorCode}");
                        Console.WriteLine($"CANCELED: ErrorDetails=[{cancellation.ErrorDetails}]");
                        Console.WriteLine($"CANCELED: Did you set the speech resource key and region values?");
                    }
                    break;
                default:
                    break;
            }
        }
    
        async static Task Main(string[] args)
        {
            var speechConfig = SpeechConfig.FromSubscription(speechKey, speechRegion);      
    
            // The neural multilingual voice can speak different languages based on the input text.
            speechConfig.SpeechSynthesisVoiceName = "en-US-AvaMultilingualNeural"; 
    
            using (var speechSynthesizer = new SpeechSynthesizer(speechConfig))
            {
                // Get text from the console and synthesize to the default speaker.
                Console.WriteLine("Enter some text that you want to speak >");
                string text = Console.ReadLine();
    
                var speechSynthesisResult = await speechSynthesizer.SpeakTextAsync(text);
                OutputSpeechSynthesisResult(speechSynthesisResult, text);
            }
    
            Console.WriteLine("Press any key to exit...");
            Console.ReadKey();
        }
    }
  4. 若要更改语音合成语言,请将 en-US-AvaMultilingualNeural 替换为另一种受支持的语音

    所有神经网络声音都是多语言的,并且能够流利地使用自己的语言和英语。 例如,如果英语的输入文本为“I'm excited to try text to speech”并且你设置了 es-ES-ElviraNeural,则该文本将用带西班牙口音的英语讲出。 如果语音使用的不是输入文本的语言,则语音服务不会输出合成的音频。

  5. 运行新的控制台应用程序,开始将语音合成到默认扬声器。
    dotnet run
  6. 输入要朗读的一些文本。 例如,键入“我对尝试文本转语音非常兴奋”。 选择 Enter 键可听到合成的语音。
    Enter some text that you want to speak >
    I'm excited to try text to speech

 

详细指南请查看:https://learn.microsoft.com/zh-cn/azure/ai-services/speech-service/get-started-text-to-speech?tabs=windows%2Cterminal&pivots=programming-language-csharp

<
依赖服务
>
<
产品问答
>
?
计费如何运作?
对于语音转文本和语音翻译,使用量按一秒增量计费。 对于文本转语音:使用量按字符计费。检查定价说明中字符的定义。 对于自定义神经语音托管:使用量按端点每秒计费。查看定价说明中的详细信息。 对于个人语音配置文件存储:使用量按每天的语音配置文件计费。查看定价说明中的详细信息。 对于文本转语音头像,使用量按秒计费。 对于语音转文本和文本转语音(包括 Avatar),自定义模型的端点托管按每个模型每秒计费。
?
什么是“自定义语音模型”?
语音服务使用户能够根据自己的声学和语言数据调整基线模型,从而生成可用于语音转文本和语音翻译的自定义语音模型。
?
什么是语言模型以及为什么要定制它? 。
语言模型是单词序列上的概率分布。语言模型帮助系统根据单词序列本身的可能性来决定听起来相似的单词序列。例如,“识别语音”和“破坏美丽的海滩”听起来很相似,但第一个假设发生的可能性要大得多,因此语言模型会分配更高的分数。如果您希望应用程序的语音查询包含特定词汇项,例如典型语音中很少出现的产品名称或行话,那么您可能可以通过自定义语言模型来获得改进的性能。例如,如果您正在构建一个通过语音搜索 MSDN 的应用程序,“面向对象”、“命名空间”或“点网”等术语可能会比典型的语音应用程序更频繁地出现。定制语言模型将使系统能够学习这一点
?
什么是声学模型以及为什么要定制它?
声学模型是一种分类器,它将音频的短片段标记为每种语言的几个音素或声音单元之一。然后可以将这些音素拼接在一起形成单词。例如,单词“speech”由四个音素“sp iy ch”组成。这些分类按每秒 100 次的数量级进行。定制声学模型可以使系统学会在非典型环境中更好地识别语音。例如,如果您有一款专供仓库或工厂工人使用的应用程序,则定制的声学模型可以在这些环境中存在噪音的情况下更准确地识别语音。
?
什么是“自定义神经语音”?
语音服务提供各种文本转语音 (TTS) 语音字体,但自定义神经语音允许您构建适合您的需求和品牌的自定义语音。阅读博客了解更多信息。
?
什么是语言识别?
语言识别允许您识别口语的切换并相应地转录语音。这可以应用于音频语言未知或说话者可能说多种语言的场景。单语言识别无需额外付费。连续语言识别是一项增强的附加功能。访问文档以了解更多信息。
?
什么是发音评估?
发音评估评估语音发音并向说话者提供有关口语音频的准确性和流畅性的反馈。通过发音评估,语言学习者可以练习、获得即时反馈并提高发音,以便他们能够自信地说话和表达。教育工作者可以利用该功能实时评估多个说话者的发音。访问文档以了解更多信息。
<
关于我们
>
Microsoft(微软公司)是一家全球知名的科技公司,以其广泛的计算机软件、消费电子产品以及相关服务闻名于世。成立于1975年,由比尔·盖茨和保罗·艾伦创立,总部位于美国华盛顿州雷德蒙德。Microsoft开发和销售多种电脑软件、电子游戏机、个人电脑以及移动设备等产品。其中,Windows操作系统、Microsoft Office办公软件套件以及Bing搜索引擎等产品在全球范围内广受用户青睐。此外,Microsoft还通过Azure提供云计算服务,支持企业数字化转型和创新。
联系信息
服务时间: 00:00:00至24:00:00
电话号码: (425) 882-8080
电话号码: (425) 706-7329

 

公司简介

随时了解 Microsoft 的最新消息 - 包括公司基本信息、新闻、全球办公地点等。

 

 

关于我们

认识 Microsoft 员工,探索引人入胜的故事,了解塑造公司愿景的领导者。

 

 

我们的价值观

了解我们如何利用技术来创建平台和资源,造就长远的积极影响。

 

特色计划和项目

透过数字了解可持续发展

到 2030 年,Microsoft 将实现负排碳目标。 通过互动方式了解我们公司改善对环境的影响的其他方式。

透过数字深入了解 

公司的社会责任

我们相信技术是造福人类的强大力量,并且正在努力创造一个可持续未来,使每个人都可以享受到技术带来的好处和机会。

了解我们的方法 

故事

在 Microsoft,我们受到来自世界各地的人们的启发,他们利用技术去做富有想象力、创新以及能改变生活的事情。 我们分享他们的故事。

查看他们的故事 

Microsoft AI

在以人为本的设计中,AI 可以扩展你的能力,解放你的思维,让你自由进行更具创造性和策略性的尝试,帮助你和你的组织达成更多成就。

了解 Microsoft AI 
<
最可能同场景使用的其他API
>