Amazon 语音转文本-Transcribe

专用API

服务商：亚马逊云厂商

【更新时间: 2024.06.18】 Amazon Transcribe 使用一种称为自动语音识别 (ASR) 的深度学习过程，快速准确地将语音转换为文本。

咨询去服务商官网采购>

浏览次数

采购人数

试用次数

SLA: N/A

响应: N/A

适用于个人&企业

试用

书签名称

确定

相似API

Text to Speech

117

使用该API可以将任何文字转语音，文字到语音使机器和应用程序能够说话。文本转语音支持多种语言，文本到语音实现语音生成。

MicrosoftAzure智能无广告位置搜寻

Microsoft Azure的一项人工智能服务，为您的用户提供安全、无广告的位置搜索，显示来自网络结果、图像、本地企业、新闻和图像的相关信息照片。

revai语音文本理解产品

世界上最准确的 AI 和人类生成转录本的 API。Rev AI 从世界上最多样化的声音集合中训练而来，为视频和语音应用设定了准确性标准。

API详情
定价
使用指南
常见 FAQ
关于我们
相关推荐

产品介绍

什么是Transcribe的Amazon 语音转文本?

"Amazon 语音转文本-Transcribe"是Amazon提供的一项基于云端的自动语音识别（ASR）服务，它可以将音频和视频文件中的语音内容转换为高质量的文本转录。Transcribe支持多种语言，包括英语、西班牙语、中文、法语、德语等，旨在帮助用户轻松地将音频内容转换为易于阅读、编辑和搜索的文本格式。

什么是Transcribe的Amazon 语音转文本接口？

由服务使用方的应用程序发起，以Restful风格为主、通过公网HTTP协议调用Transcribe的Amazon 语音转文本，从而实现程序的自动化交互，提高服务效率。

Transcribe的Amazon 语音转文本有哪些核心功能？

1. 从客户通话、视频文件、临床对话等资源中提取关键业务见解。

2. 借助完全托管和持续训练的最先进语音识别模型改善业务成果。

3. 使用理解所在领域特定词汇的自定义模型提高准确性。

4. 通过掩盖敏感信息确保客户隐私和安全性。

Transcribe的Amazon 语音转文本的核心优势是什么？

高精度：使用先进的机器学习技术，能够生成高质量、高准确率的转录文本。
灵活性：支持多种音频格式和多种语言，适应不同场景和需求。
可扩展性：基于云端的架构，能够轻松处理大规模音频数据，满足企业级需求。
可定制性：允许用户根据需求自定义词汇表和语言模型，提高转录的准确性和特定领域的适用性。
安全性：提供多种安全功能，如数据加密、访问控制等，确保用户数据的安全和隐私。

在哪些场景会用到Transcribe的Amazon 语音转文本？

媒体和娱乐：用于电影、电视节目、播客等媒体内容的字幕制作和搜索。
教育：用于在线课程和讲座的转录，方便学生复习和搜索。
法律：用于法庭审判、律师咨询等场景的音频记录转录，便于查阅和引用。
企业会议：用于公司内部会议和研讨会的音频记录转录，方便整理和分享会议内容。

产品价格

按实际使用量付费模式

您按月付费，计费依据是您处理的文本的字符数量。Amazon Polly 的标准语音定价为：对于超出免费套餐的语音或语音标记请求，每 100 万个字符 4.00 USD。Amazon Polly 的神经语音定价为：对于超出免费套餐的语音或请求的语音标记，每 100 万个字符 16.00 USD。Amazon Polly 的长格式语音定价为：对于超出免费套餐的语音或请求的语音标记，每 100 万个字符 100.00 USD。 Amazon Polly 的生成式语音定价为：对于超出免费套餐的语音请求，每 100 万个字符 30 USD。

每月数百万个字符

对于 Amazon Polly 的标准语音，从您提交第一个 Polly 语音或语音标记请求起 12 个月内，针对该类请求，免费套餐每个月提供 500 万个字符服务。对于神经语音，从您提交第一个语音或语音标记请求起 12 个月内，针对该类请求，免费套餐每个月提供 100 万个字符服务。对于长格式语音，从您提交第一个 Polly 语音或语音标记请求起 12 个月内，针对该类请求，免费套餐每个月提供 50 万个字符服务。对于生成式语音，从您提交第一个 Polly 语音请求起 12 个月内，针对该类请求，免费套餐每个月提供 10 万字符的服务。

使用指南


设置并登录您的 AWS 账户	观看网络研讨会并阅读文档。	登录 Polly 控制台并开始构建。

产品问答

什么是 Amazon Transcribe?

Amazon Transcribe 是一项 AWS 人工智能(AI)服务，使您能够轻松实现语音转文本功能。采用自动语音识别(ASR)技术，您可以将 Amazon Transcribe 用于各种业务应用程序，包括转录基于语音的客户服务通话、生成音频/视频内容字幕,以及对音频/视频内容执行(基于文本的)内容分析。

Amazon Transcribe 如何与其他 AWS 产品交互?

Amazon Transcribe 可以将音频输入转换为文本，这为开发基于语音输入的各种文本分析应用程序打开了方便之门。例如，通过将 Amazon Comprehend 用于来自 Amazon Transcribe 的转换后文本数据，您可以进行情绪分析或提取实体和关键短语。同样，通过将 Amazon Translate 与 Amazon Poly 集成，您可以接收一种语言的语音输入，然后将其翻译为另一种语言并生成语音输出，从而有效地实现多种语言对话。还可以将 AmazonTranscribe与 Amazon Kendra 或AmazonOpenSearch 集成，以便在音频/视频库内编写索引并执行基于文本的搜索。要了解更多信息，请查看实时呼叫分析和座席协助、呼叫后分析、媒体搜索或内容分析解决方案。

我在使用 Amazon Transcribe 之前还应了解什么?

Amazon Transcribe 旨在处理各种语音和声学特征，包括音量、音调和语速的变化。音频信号的质量和内容(包括但不限于背景噪音、扬声器重叠、口音或一个音频文件内语言间的切换等因素)可能会影响服务输出的准确性。我们在不断更新服务，以改进其适应其他声音变化和内容类型的能力，使用 Amazon Transcribe

关于我们

亚马逊云厂商

企业

亚马逊云科技（Amazon Web Services，简称AWS）是全球领先的云计算服务提供商，提供包括计算、存储、数据库、分析、机器学习、物联网、移动、安全、混合云、虚拟和增强现实等在内的广泛服务。AWS在全球34个地理区域内运营108个可用区，服务超过200个国家和地区，帮助企业、开发者和政府机构构建灵活、可靠、可扩展的云基础设施。作为亚马逊公司的一部分，AWS致力于提供创新的云解决方案，支持客户实现数字化转型。

联系信息

服务时间：早9:00-晚8:00 (法定假期除外)

电话号码： +86 (10) 1010 0866

网页在线客服：咨询

AWS 云计算

Amazon Web Services（AWS）是全球最全面、应用最广泛的云，从全球数据中心提供超过 200 项功能齐全的服务。数百万客户（包括增长最快速的初创公司、最大型企业和主要的政府机构）都在使用 AWS 来降低成本、提高敏捷性并加速创新。

最多的功能
从计算、存储和数据库等基础设施技术，到机器学习、人工智能、数据湖和分析以及物联网等新兴技术，AWS 提供的服务以及其中的功能比其他任何云服务提供商的都要多得多。这使得将现有应用程序迁移到云中并构建您可以想象的几乎任何东西都变得更快、更容易且更具成本效益。

AWS 的这些服务还具有最为多样复杂的功能。例如，AWS 提供了种类繁多的数据库，这些数据库是为不同类型的应用程序专门构建的，因此您可以选择适合作业的工具来获得最佳的成本和性能。

最大的客户和合作伙伴社区
AWS 拥有最大且最具活力的社区，在全球拥有数百万活跃客户和成千上万个合作伙伴。几乎所有行业和规模的客户（包括初创公司、企业和公共部门组织）都在 AWS 上运行所有可能的使用案例。AWS 合作伙伴网络 (APN) 包括专注于 AWS 服务的数千个系统集成商和成千上万个将其技术应用到 AWS 中的独立软件供应商 (ISV)。

最安全
AWS 旨在成为当今市场上最灵活、最安全的云计算环境。我们的核心基础设施是为了满足军事、全球的银行和其他高度敏感性组织的安全要求而构建。一组深度云安全工具对此提供支持，其中包括超过 300 项安全、合规性和监管服务及功能，以及对 143 项安全标准和合规性认证的支持。

最快的创新速度
借助 AWS，您可以利用最新技术更快地进行实验和创新。我们将不断加快创新步伐，以发明您可用于转变业务的全新技术。例如，在 2014 年，AWS 通过推出 AWS Lambda 在无服务器计算领域开创了先河，该平台使开发人员无需预置或管理服务器即可运行其代码。AWS 构建了 Amazon SageMaker，这是一种完全托管的机器学习服务，可让日常开发人员和科学家无需任何前置经验即可运用机器学习。

最成熟的运营专业能力
AWS 具有无与伦比的经验、成熟度、可靠性、安全性和性能，您可以将其用于最重要的应用程序。在超过 17 年的时间中，AWS 一直在为运行各种使用案例的全球数百万客户提供云服务。在所有云服务提供商中，AWS 拥有最丰富的大规模运营经验。

AWS 区域的全球网络
AWS 拥有覆盖范围领先的全球云基础设施。Gartner 已将 AWS 区域/可用区模型
视为一种值得推荐运行方式，适用于要求高可用性的企业应用程序。

最可能同场景使用的其他API

长语音转写-有道专用API

【更新时间：2024.06.18】长语音转写服务，能够针对一小时以内的长语音文件进行高效转换，将其准确地转写为文本数据。该服务操作便捷，能快速且精准地实现长语音到文本的转换过程，为用户提供可靠的语音转写支持。

开发者工具 > 音频工具