文本转语音-Microsoft
专用API
服务商:
microsoft.com
【更新时间: 2024.07.18】
构建自然说话的应用程序和服务。文本到语音通过定制的、逼真的语音生成器使您的品牌脱颖而出,文字转语音并使用不同的说话风格和情绪语气来适应您的使用场景。文字到语音支持多种语言。
咨询
去服务商官网采购>
|
服务星级:2星
浏览次数
20
采购人数
1
试用次数
0
SLA: N/A
响应: N/A
适用于个人&企业
收藏
×
完成
取消
×
书签名称
确定
|
- API详情
- 定价
- 使用指南
- 常见 FAQ
- 关于我们
- 相关推荐
什么是Microsoft的文本转语音?
微软Azure的文本转语音服务提供了一种逼真、可定制的语音生成解决方案,支持细粒度控制和灵活部署。用户可以根据自己的需求定制语音输出。此外,Azure还提供了丰富的资源和工具来帮助用户快速开始使用和构建语音服务。 |
什么是Microsoft的文本转语音接口?
Microsoft的文本转语音有哪些核心功能?
逼真的合成语音实现流畅、自然的文本转语音,与人声的语调和情感相匹配。 |
可定制的文本说话者声音创建一个独特的人工智能语音生成器来反映您的品牌形象。 |
细粒度的文本对话音频控制通过轻松调整速率、音高、发音、停顿等,根据您的场景调整语音输出。 |
灵活部署在云端、本地或容器边缘的任何地方运行文本转语音。 |
从云端到边缘的任何地方部署文本转语音无论您的数据位于何处,都可以运行文本转语音。使用容器将逼真的语音合成构建到针对强大的云功能和边缘位置进行优化的应用程序中 。 |
Microsoft的文本转语音的核心优势是什么?
1. 为您的品牌打造定制声音
- 通过独特的 定制声音让您的品牌脱颖而出。使用自定义神经语音功能开发高度逼真的语音,以实现更自然的对话界面,从 30 分钟的音频开始。
2.通过云人工智能服务推动应用创新
- 了解您的组织可以开始使用人工智能以快速实现价值的五种关键方法。
3.全面的隐私和安全
- AI 语音是 Azure AI 服务的一部分,已 通过 SOC、FedRAMP、PCI DSS、HIPAA、HITECH 和 ISO认证。随时查看和删除您的自定义语音数据和合成语音模型。您的数据在存储时会被加密。训练您的数据仍然属于您。在数据处理或音频语音生成过程中不会存储您的文本数据。
4.内置全面的安全性和合规性
- Microsoft 每年在网络安全研发方面的投资超过10 亿美元。
- 我们雇用了 3,500 多名致力于数据安全和隐私的安全专家。
在哪些场景会用到Microsoft的文本转语音?
客户服务 在呼叫中心或自动客服系统中,提供自然流畅的语音交互,提升客户体验。 |
|
语言学习 提供语言学习应用中的发音指导和听力练习材料。 |
|
会议录听 可以帮助提升会议录听的效率和质量,无论是在企业内部会议、远程教育、在线研讨会还是其他需要语音输出的场合。 |
|
多设备对话 Azure 文字转语音服务可以帮助开发者构建跨设备、无缝且一致的对话体验。 |
|
语音助手 Azure 文字转语音服务提供了强大的功能和灵活性,非常适合用于构建和增强语音助手的语音交互能力 |
免费版
类别 | 特征 | 价格 |
---|---|---|
语音转文本 (按秒计费) |
标准 | 每月 5 小时免费音频3 |
风俗 | 每月免费 5 小时音频3 端点托管:每月免费 1 个模型1 |
|
对话转录多通道音频预览 | 每月 5 小时免费音频 | |
文本转语音 (按字符计费) |
神经 | 每月免费 50 万个字符 |
语音翻译 (按秒计费) |
标准 | 每月 5 小时免费音频 |
说话人识别 (按交易计费) |
说话者验证2 | 每月 10,000 笔交易免费 |
说话人识别2 | 每月 10,000 笔交易免费 | |
语音配置文件存储 | 每月 10,000 笔交易免费 |
即用即付:仅按使用量付费
类别 | 价格 | |
---|---|---|
语音转文本 (按秒计费) |
标准 | 实时转录:每小时1 美元 快速转录预览:每小时不适用9 批量转录:每小时0.18 美元1 |
风俗 | 实时转录:每小时1.20 美元 批量转录:每小时0.225 美元1 端点托管:每个模型每小时0.0538 美元 自定义语音训练5:每计算小时 10 美元 |
|
增强的附加功能:
|
实时:每个功能每小时0.30 美元 批量(连续语言识别、二值化):包含在标准/自定义中(无额外费用) |
|
对话转录多通道音频预览 | 每小时2.10 美元2 | |
语音翻译 (按秒计费) |
实时语音翻译 | 每音频小时2.50 美元3 |
视频翻译预览 | 批量:每输出视频分钟不适用 内容编辑:每输出视频分钟不适用 个人语音:每输出视频分钟 不适用 |
|
文字转语音8 | 标准语音 | 神经网络:每 100 万个字符15 美元 神经网络 HD 4:每 100 万个字符 不适用 |
自定义语音 | 专业声音: 合成:每 100 万个字符24 美元
语音模型训练:每个计算小时52 美元,每次训练最高4,992 美元 端点托管:每个模型每小时4.04 美元 |
|
个人声音6: 合成:每 100 万个字符不适用
语音创建:免费 语音配置文件存储:每月每 1,000 个语音配置文件 不适用 |
||
增强的附加功能:头像预览 | 标准:N/A每分钟 | |
风俗: 实时综合:每分钟N/A
批量综合:每分钟 N/A 端点托管:每小时每个模型 N/A |
||
说话人识别 (按交易计费) |
说话者验证7 | 每 1,000 笔交易5 美元 |
说话者识别7 | 每 1,000 笔交易10 美元 | |
语音配置文件存储 | 每 1,000 个语音配置文件0.20 USD(每月 10,000 个免费语音配置文件) |
其他价格信息请查看:https://azure.microsoft.com/en-us/pricing/details/cognitive-services/speech-services/
先决条件
设置环境
语音 SDK 以 NuGet 包的形式提供,实现了 .NET Standard 2.0。 稍后在本指南中安装语音 SDK。 有关任何要求,请参阅安装语音 SDK。
设置环境变量。
必须对应用程序进行身份验证才能访问 Azure AI 服务资源。 对于生产,请使用安全的方式存储和访问凭据。 例如,获取语音资源的密钥后,请将其写入运行应用程序的本地计算机上的新环境变量。
提示
请不要直接在代码中包含密钥,并且绝不公开发布密钥。 有关 Azure Key Vault 等更多身份验证选项,请参阅 Azure AI 服务安全性。
若要为语音资源密钥设置环境变量,请打开控制台窗口,并按照操作系统和开发环境的说明进行操作。
- 要设置
SPEECH_KEY
环境变量,请将“your-key”替换为你的资源的某一个密钥。 - 要设置
SPEECH_REGION
环境变量,请将 “your-region”替换为你的资源的某一个地区。
Windows:
setx SPEECH_KEY your-key
setx SPEECH_REGION your-region
添加环境变量后,你可能需要重启任何需要读取环境变量的程序(包括控制台窗口)。 例如,如果使用 Visual Studio 作为编辑器,请在运行示例之前重启 Visual Studio。
合成到扬声器输出
按照以下步骤创建控制台应用程序并安装语音 SDK。
-
在需要新项目的文件夹中打开命令提示符窗口。 运行以下命令,使用 .NET CLI 创建控制台应用程序。
dotnet new console
该命令会在项目目录中创建 Program.cs 文件。
- 使用 .NET CLI 在新项目中安装语音 SDK。
dotnet add package Microsoft.CognitiveServices.Speech
- 将 Program.cs 的内容替换为以下代码。
using System; using System.IO; using System.Threading.Tasks; using Microsoft.CognitiveServices.Speech; using Microsoft.CognitiveServices.Speech.Audio; class Program { // This example requires environment variables named "SPEECH_KEY" and "SPEECH_REGION" static string speechKey = Environment.GetEnvironmentVariable("SPEECH_KEY"); static string speechRegion = Environment.GetEnvironmentVariable("SPEECH_REGION"); static void OutputSpeechSynthesisResult(SpeechSynthesisResult speechSynthesisResult, string text) { switch (speechSynthesisResult.Reason) { case ResultReason.SynthesizingAudioCompleted: Console.WriteLine($"Speech synthesized for text: [{text}]"); break; case ResultReason.Canceled: var cancellation = SpeechSynthesisCancellationDetails.FromResult(speechSynthesisResult); Console.WriteLine($"CANCELED: Reason={cancellation.Reason}"); if (cancellation.Reason == CancellationReason.Error) { Console.WriteLine($"CANCELED: ErrorCode={cancellation.ErrorCode}"); Console.WriteLine($"CANCELED: ErrorDetails=[{cancellation.ErrorDetails}]"); Console.WriteLine($"CANCELED: Did you set the speech resource key and region values?"); } break; default: break; } } async static Task Main(string[] args) { var speechConfig = SpeechConfig.FromSubscription(speechKey, speechRegion); // The neural multilingual voice can speak different languages based on the input text. speechConfig.SpeechSynthesisVoiceName = "en-US-AvaMultilingualNeural"; using (var speechSynthesizer = new SpeechSynthesizer(speechConfig)) { // Get text from the console and synthesize to the default speaker. Console.WriteLine("Enter some text that you want to speak >"); string text = Console.ReadLine(); var speechSynthesisResult = await speechSynthesizer.SpeakTextAsync(text); OutputSpeechSynthesisResult(speechSynthesisResult, text); } Console.WriteLine("Press any key to exit..."); Console.ReadKey(); } }
-
若要更改语音合成语言,请将
en-US-AvaMultilingualNeural
替换为另一种受支持的语音。所有神经网络声音都是多语言的,并且能够流利地使用自己的语言和英语。 例如,如果英语的输入文本为“I'm excited to try text to speech”并且你设置了
es-ES-ElviraNeural
,则该文本将用带西班牙口音的英语讲出。 如果语音使用的不是输入文本的语言,则语音服务不会输出合成的音频。 - 运行新的控制台应用程序,开始将语音合成到默认扬声器。
dotnet run
- 输入要朗读的一些文本。 例如,键入“我对尝试文本转语音非常兴奋”。 选择 Enter 键可听到合成的语音。
Enter some text that you want to speak > I'm excited to try text to speech
公司简介
随时了解 Microsoft 的最新消息 - 包括公司基本信息、新闻、全球办公地点等。
关于我们
认识 Microsoft 员工,探索引人入胜的故事,了解塑造公司愿景的领导者。
我们的价值观
了解我们如何利用技术来创建平台和资源,造就长远的积极影响。
特色计划和项目
透过数字了解可持续发展到 2030 年,Microsoft 将实现负排碳目标。 通过互动方式了解我们公司改善对环境的影响的其他方式。 |
公司的社会责任我们相信技术是造福人类的强大力量,并且正在努力创造一个可持续未来,使每个人都可以享受到技术带来的好处和机会。 |
故事在 Microsoft,我们受到来自世界各地的人们的启发,他们利用技术去做富有想象力、创新以及能改变生活的事情。 我们分享他们的故事。 |
Microsoft AI在以人为本的设计中,AI 可以扩展你的能力,解放你的思维,让你自由进行更具创造性和策略性的尝试,帮助你和你的组织达成更多成就。 |
免费版
类别 | 特征 | 价格 |
---|---|---|
语音转文本 (按秒计费) |
标准 | 每月 5 小时免费音频3 |
风俗 | 每月免费 5 小时音频3 端点托管:每月免费 1 个模型1 |
|
对话转录多通道音频预览 | 每月 5 小时免费音频 | |
文本转语音 (按字符计费) |
神经 | 每月免费 50 万个字符 |
语音翻译 (按秒计费) |
标准 | 每月 5 小时免费音频 |
说话人识别 (按交易计费) |
说话者验证2 | 每月 10,000 笔交易免费 |
说话人识别2 | 每月 10,000 笔交易免费 | |
语音配置文件存储 | 每月 10,000 笔交易免费 |
即用即付:仅按使用量付费
类别 | 价格 | |
---|---|---|
语音转文本 (按秒计费) |
标准 | 实时转录:每小时1 美元 快速转录预览:每小时不适用9 批量转录:每小时0.18 美元1 |
风俗 | 实时转录:每小时1.20 美元 批量转录:每小时0.225 美元1 端点托管:每个模型每小时0.0538 美元 自定义语音训练5:每计算小时 10 美元 |
|
增强的附加功能:
|
实时:每个功能每小时0.30 美元 批量(连续语言识别、二值化):包含在标准/自定义中(无额外费用) |
|
对话转录多通道音频预览 | 每小时2.10 美元2 | |
语音翻译 (按秒计费) |
实时语音翻译 | 每音频小时2.50 美元3 |
视频翻译预览 | 批量:每输出视频分钟不适用 内容编辑:每输出视频分钟不适用 个人语音:每输出视频分钟 不适用 |
|
文字转语音8 | 标准语音 | 神经网络:每 100 万个字符15 美元 神经网络 HD 4:每 100 万个字符 不适用 |
自定义语音 | 专业声音: 合成:每 100 万个字符24 美元
语音模型训练:每个计算小时52 美元,每次训练最高4,992 美元 端点托管:每个模型每小时4.04 美元 |
|
个人声音6: 合成:每 100 万个字符不适用
语音创建:免费 语音配置文件存储:每月每 1,000 个语音配置文件 不适用 |
||
增强的附加功能:头像预览 | 标准:N/A每分钟 | |
风俗: 实时综合:每分钟N/A
批量综合:每分钟 N/A 端点托管:每小时每个模型 N/A |
||
说话人识别 (按交易计费) |
说话者验证7 | 每 1,000 笔交易5 美元 |
说话者识别7 | 每 1,000 笔交易10 美元 | |
语音配置文件存储 | 每 1,000 个语音配置文件0.20 USD(每月 10,000 个免费语音配置文件) |
其他价格信息请查看:https://azure.microsoft.com/en-us/pricing/details/cognitive-services/speech-services/
先决条件
设置环境
语音 SDK 以 NuGet 包的形式提供,实现了 .NET Standard 2.0。 稍后在本指南中安装语音 SDK。 有关任何要求,请参阅安装语音 SDK。
设置环境变量。
必须对应用程序进行身份验证才能访问 Azure AI 服务资源。 对于生产,请使用安全的方式存储和访问凭据。 例如,获取语音资源的密钥后,请将其写入运行应用程序的本地计算机上的新环境变量。
提示
请不要直接在代码中包含密钥,并且绝不公开发布密钥。 有关 Azure Key Vault 等更多身份验证选项,请参阅 Azure AI 服务安全性。
若要为语音资源密钥设置环境变量,请打开控制台窗口,并按照操作系统和开发环境的说明进行操作。
- 要设置
SPEECH_KEY
环境变量,请将“your-key”替换为你的资源的某一个密钥。 - 要设置
SPEECH_REGION
环境变量,请将 “your-region”替换为你的资源的某一个地区。
Windows:
setx SPEECH_KEY your-key
setx SPEECH_REGION your-region
添加环境变量后,你可能需要重启任何需要读取环境变量的程序(包括控制台窗口)。 例如,如果使用 Visual Studio 作为编辑器,请在运行示例之前重启 Visual Studio。
合成到扬声器输出
按照以下步骤创建控制台应用程序并安装语音 SDK。
-
在需要新项目的文件夹中打开命令提示符窗口。 运行以下命令,使用 .NET CLI 创建控制台应用程序。
dotnet new console
该命令会在项目目录中创建 Program.cs 文件。
- 使用 .NET CLI 在新项目中安装语音 SDK。
dotnet add package Microsoft.CognitiveServices.Speech
- 将 Program.cs 的内容替换为以下代码。
using System; using System.IO; using System.Threading.Tasks; using Microsoft.CognitiveServices.Speech; using Microsoft.CognitiveServices.Speech.Audio; class Program { // This example requires environment variables named "SPEECH_KEY" and "SPEECH_REGION" static string speechKey = Environment.GetEnvironmentVariable("SPEECH_KEY"); static string speechRegion = Environment.GetEnvironmentVariable("SPEECH_REGION"); static void OutputSpeechSynthesisResult(SpeechSynthesisResult speechSynthesisResult, string text) { switch (speechSynthesisResult.Reason) { case ResultReason.SynthesizingAudioCompleted: Console.WriteLine($"Speech synthesized for text: [{text}]"); break; case ResultReason.Canceled: var cancellation = SpeechSynthesisCancellationDetails.FromResult(speechSynthesisResult); Console.WriteLine($"CANCELED: Reason={cancellation.Reason}"); if (cancellation.Reason == CancellationReason.Error) { Console.WriteLine($"CANCELED: ErrorCode={cancellation.ErrorCode}"); Console.WriteLine($"CANCELED: ErrorDetails=[{cancellation.ErrorDetails}]"); Console.WriteLine($"CANCELED: Did you set the speech resource key and region values?"); } break; default: break; } } async static Task Main(string[] args) { var speechConfig = SpeechConfig.FromSubscription(speechKey, speechRegion); // The neural multilingual voice can speak different languages based on the input text. speechConfig.SpeechSynthesisVoiceName = "en-US-AvaMultilingualNeural"; using (var speechSynthesizer = new SpeechSynthesizer(speechConfig)) { // Get text from the console and synthesize to the default speaker. Console.WriteLine("Enter some text that you want to speak >"); string text = Console.ReadLine(); var speechSynthesisResult = await speechSynthesizer.SpeakTextAsync(text); OutputSpeechSynthesisResult(speechSynthesisResult, text); } Console.WriteLine("Press any key to exit..."); Console.ReadKey(); } }
-
若要更改语音合成语言,请将
en-US-AvaMultilingualNeural
替换为另一种受支持的语音。所有神经网络声音都是多语言的,并且能够流利地使用自己的语言和英语。 例如,如果英语的输入文本为“I'm excited to try text to speech”并且你设置了
es-ES-ElviraNeural
,则该文本将用带西班牙口音的英语讲出。 如果语音使用的不是输入文本的语言,则语音服务不会输出合成的音频。 - 运行新的控制台应用程序,开始将语音合成到默认扬声器。
dotnet run
- 输入要朗读的一些文本。 例如,键入“我对尝试文本转语音非常兴奋”。 选择 Enter 键可听到合成的语音。
Enter some text that you want to speak > I'm excited to try text to speech
公司简介
随时了解 Microsoft 的最新消息 - 包括公司基本信息、新闻、全球办公地点等。
关于我们
认识 Microsoft 员工,探索引人入胜的故事,了解塑造公司愿景的领导者。
我们的价值观
了解我们如何利用技术来创建平台和资源,造就长远的积极影响。
特色计划和项目
透过数字了解可持续发展到 2030 年,Microsoft 将实现负排碳目标。 通过互动方式了解我们公司改善对环境的影响的其他方式。 |
公司的社会责任我们相信技术是造福人类的强大力量,并且正在努力创造一个可持续未来,使每个人都可以享受到技术带来的好处和机会。 |
故事在 Microsoft,我们受到来自世界各地的人们的启发,他们利用技术去做富有想象力、创新以及能改变生活的事情。 我们分享他们的故事。 |
Microsoft AI在以人为本的设计中,AI 可以扩展你的能力,解放你的思维,让你自由进行更具创造性和策略性的尝试,帮助你和你的组织达成更多成就。 |