语音转文本-IBM Watson

语音转文本-IBM Watson

专用API
服务商 服务商: IBM
【更新时间: 2024.06.18】 IBM Watson 语音转文本,它主要采用了由人工智能所驱动的先进语音识别与转录技术。能够高效且精准地将各种语音内容转换为清晰准确的文本形式,以便于后续的处理、分析和使用,极大地提升了语音转换的效率和质量。
免费 (精简版免费) 去服务商官网采购>
服务星级:2星
⭐ ⭐ 🌟 🌟 🌟 🌟 🌟
浏览次数
59
采购人数
4
试用次数
0
! SLA: N/A
! 响应: N/A
! 适用于个人&企业
收藏
×
完成
取消
×
书签名称
确定
<
产品介绍
>

什么是IBM Watson的语音转文本?

IBM Watson语音转文字技术能够为多种应用场景提供快速且准确的语音转录,支持多种语言,包括但不限于客户自助服务、客服助手和语音分析。利用我们开箱即用的先进机器学习模型快速上手,或者根据您的具体需求进行定制。

 

什么是IBM Watson的语音转文本?

由服务使用方的应用程序发起,以Restful风格为主、通过公网HTTP协议调用IBM Watson的语音转文本,从而实现程序的自动化交互,提高服务效率。

IBM Watson的语音转文本有哪些核心功能?

1、自动语音识别:使用由 IBM Watson 提供支持的神经技术实现语音识别,从而实现语音应用。

2、模型训练选项:通过语言和声学训练选项提高用例的语音识别准确性。

3、针对客户服务进行了优化:使用针对客户服务域优化的语音模型激活语音应用程序。

4、预训练的语音模型:使用针对客户服务域优化的语音模型激活语音应用程序。

5、微调功能:提高提取短语、单词、字母、数字或列表的语音识别准确性。

6、低延迟转录:使用我们针对实时语音应用程序中的低延迟而优化的模型。

7、转录前的音频诊断:在转录开始之前分析并纠正微弱的音频信号。

8、最终结果前的中期转录:通过在生成语音转录时和整个定稿过程中使用语音转录来缩短应用程序响应时间。

9、智能格式:通过将日期、时间、数字、货币价值、电子邮件和网站地址转换为常规形式,在最终成绩单中转录它们。

10、演讲者日记:识别谁在多参与者语音交换中说了什么。目前针对双向呼叫中心对话进行了优化,但最多可以检测 6 个不同的扬声器。

11、单词识别和过滤:使用我们的关键字发现和亵渎过滤功能过滤特定字词或不当内容。(仅限美国英语)

IBM Watson的语音转文本的核心优势是什么?

 

更准确的 AI

我们一流的 AI 嵌入在 Watson Speech to Text 中,能够真正了解您的客户

 

可针对您的业务进行定制

根据您独特的域语言和特定的音频特征训练 Watson Speech to Text

 

保护您的数据

享受 IBM 世界一流的数据治理实践的安全性

 

 

真正在任何地方运行

专为支持全球语言而构建,可部署在任何云上,包括公有云、私有云、混合云、多云或本地云

 

在哪些场景会用到IBM Watson的语音转文本?

客户自助服务

在电话上使用 Watson 支持的虚拟助手回答常见的呼叫中心查询。

呼叫分析

通过挖掘对话日志来快速准确地识别新出现的呼叫模式、客户投诉、情绪、不合规行为等,从而提高呼叫中心性能。

代理协助

使用 AI 驱动的文档和 Intranet 搜索,在通话期间提供实时帮助,提高座席的工作效率和成功率。当座席与客户交谈时,Watson 会监听对话,转录音频,在文档中搜索相关内容,并在几秒钟内将答案反馈给座席。

<
产品价格
>

 

精简版

 

免费 每月 500 分钟的自由语音识别和 38 个预训练的语音模型。

 

升级版

 

低至每分钟0.01美元 调整语音模型以提高识别和转录的准确性。升级版本包括每月无限分钟和 100 次并发转录。

 

尊享版

 

需咨询定价 为大型安全敏感型公司提供更多容量和数据保护。高级版包括每月无限分钟数和无限并发转录。

 

随处部署版

 

需咨询定价 借助 IBM Cloud Pak for Data 的灵活性,部署在防火墙后面或任何云上。随处部署版版本包括每月无限分钟数和无限并发听录,以及噪声检测、语音自定义和数据隔离。

 

<
使用指南
>

Speech to Text 服务具有以下已知限制。 这些问题适用于跨所有平台的发行版的服务功能。

1、先前生成模型的临时结果

2、发言人标签支持的功能始终为true

3、定制模型的 progress 字段不连续

<
产品问答
>
?
如何访问服务凭证?
如何访问服务凭证取决于您是将 Speech to Text 与 IBM Cloud® 还是 IBM Cloud Pak® for Data配合使用
?
服务支持哪些语言?
Speech to Text 服务同时支持前代和下一代语言和模型。 大多数语言都支持宽带/多媒体和窄带/电话模型,它们的最小采样率分别为 16 千赫兹和 8 千赫兹
?
输入音频格式是什么?
该服务支持多种音频格式 (MIME 类型)。 不同格式支持不同的采样率和其他特征。 通过使用支持压缩的格式,可以最大限度提高可在一个请求中发送的音频数据量。
?
可以向服务提交多少音频数据?
可通过单个语音识别请求提交的音频量取决于使用的接口: WebSocket 和同步 HTTP 接口可接受最多 100 MB 音频数据。 异步 HTTP 接口接受最多 1 GB 音频数据。
?
我能否转录视频文件中的语音?
您无法转录同时包含音频和视频的多媒体文件中的语音。 要从视频文件转录语音,必须将音频数据与视频数据分开。
?
可以向定制语言模型添加多少词?
最多可以从所有源向定制语言模型添加 9 万个未登录 (OOV) 词。 最多可以从所有源向定制语言模型添加共 1000 万个词。 但是,许多因素会影响有效定制语言模型所需的数据量。 虽然无法提供需要为任何定制模型或应用添加的确切词数,但即使向定制模型添加几个词,也可能会改进语音识别。
?
定制模型升级是如何运作的?
发布上一代基本模型的新版本以提高语音识别的质量时,必须升级基于该模型的任何定制语言和定制声学模型以利用更新。 升级定制模型时,不需要单独升级其资源。 服务会自动升级资源。 定制模型升级仅适用于先前生成的模型。
?
Speech to Text 服务可以将数字转录为数字而不是字符串吗?
对于美国英语、日语和西班牙语音频,可以使用智能格式设置将特定字符串(例如,数字和号码)转换为更常规的表示法。 智能格式设置是 Beta 功能。
<
关于我们
>
IBM
企业
IBM Watson Speech to Text 是一种先进的语音转文本技术,支持多种语言的快速准确语音转录。它适用于客户自助服务、代理协助和语音分析等多种场景。IBM 提供了预训练的机器学习模型,并允许用户根据特定需求进行定制。此外,IBM Watson Speech to Text 还提供容器化库,供合作伙伴嵌入到商业应用中。
联系信息
服务时间: 7*24
电话号码: 1-800-426-4968

IBM 历史上的标志性时刻

1928年:穿孔卡片与美国人口普查

IBM的穿孔卡片成为了接下来50年里的行业标准,几乎承载了世界上所有的已知信息,使得大规模项目如美国人口普查得以实现。

1952年:数字存储的诞生

IBM通过磁带数据向世界介绍了数字存储,标志着从穿孔卡片计算器向电子计算机的转变。

1956年:人工智能的先声

亚瑟·L·塞缪尔编写程序,使IBM 704计算机能够下跳棋并从经验中学习。这被认为是人工智能的首次演示。

1969年:人类首次登月

在一项史诗般的工程壮举中,IBM为阿波罗任务构建了计算机和软件,成功帮助尼尔·阿姆斯特朗和巴兹·奥尔德林登上月球,并引导他们安全返回地球。

1997年:人工智能战胜国际象棋世界冠军

IBM的“深蓝”超级计算机击败了当时的世界国际象棋冠军。具备思考能力的计算机向前迈出了一大步,朝着我们今天所熟知和使用的那种人工智能迈进。

2021 年:全球首款 2 纳米芯片

在指甲盖大小的芯片上拥有 500 亿个晶体管(迄今为止密度最大的芯片),这项创新具有实现更环保的数据中心和更安全的自动驾驶汽车的潜力。

<
最可能同场景使用的其他API
>
API接口列表
<
产品价格
>

 

精简版

 

免费 每月 500 分钟的自由语音识别和 38 个预训练的语音模型。

 

升级版

 

低至每分钟0.01美元 调整语音模型以提高识别和转录的准确性。升级版本包括每月无限分钟和 100 次并发转录。

 

尊享版

 

需咨询定价 为大型安全敏感型公司提供更多容量和数据保护。高级版包括每月无限分钟数和无限并发转录。

 

随处部署版

 

需咨询定价 借助 IBM Cloud Pak for Data 的灵活性,部署在防火墙后面或任何云上。随处部署版版本包括每月无限分钟数和无限并发听录,以及噪声检测、语音自定义和数据隔离。

 

<
使用指南
>

Speech to Text 服务具有以下已知限制。 这些问题适用于跨所有平台的发行版的服务功能。

1、先前生成模型的临时结果

2、发言人标签支持的功能始终为true

3、定制模型的 progress 字段不连续

<
依赖服务
>
<
产品问答
>
?
如何访问服务凭证?
如何访问服务凭证取决于您是将 Speech to Text 与 IBM Cloud® 还是 IBM Cloud Pak® for Data配合使用
?
服务支持哪些语言?
Speech to Text 服务同时支持前代和下一代语言和模型。 大多数语言都支持宽带/多媒体和窄带/电话模型,它们的最小采样率分别为 16 千赫兹和 8 千赫兹
?
输入音频格式是什么?
该服务支持多种音频格式 (MIME 类型)。 不同格式支持不同的采样率和其他特征。 通过使用支持压缩的格式,可以最大限度提高可在一个请求中发送的音频数据量。
?
可以向服务提交多少音频数据?
可通过单个语音识别请求提交的音频量取决于使用的接口: WebSocket 和同步 HTTP 接口可接受最多 100 MB 音频数据。 异步 HTTP 接口接受最多 1 GB 音频数据。
?
我能否转录视频文件中的语音?
您无法转录同时包含音频和视频的多媒体文件中的语音。 要从视频文件转录语音,必须将音频数据与视频数据分开。
?
可以向定制语言模型添加多少词?
最多可以从所有源向定制语言模型添加 9 万个未登录 (OOV) 词。 最多可以从所有源向定制语言模型添加共 1000 万个词。 但是,许多因素会影响有效定制语言模型所需的数据量。 虽然无法提供需要为任何定制模型或应用添加的确切词数,但即使向定制模型添加几个词,也可能会改进语音识别。
?
定制模型升级是如何运作的?
发布上一代基本模型的新版本以提高语音识别的质量时,必须升级基于该模型的任何定制语言和定制声学模型以利用更新。 升级定制模型时,不需要单独升级其资源。 服务会自动升级资源。 定制模型升级仅适用于先前生成的模型。
?
Speech to Text 服务可以将数字转录为数字而不是字符串吗?
对于美国英语、日语和西班牙语音频,可以使用智能格式设置将特定字符串(例如,数字和号码)转换为更常规的表示法。 智能格式设置是 Beta 功能。
<
关于我们
>
IBM
企业
IBM Watson Speech to Text 是一种先进的语音转文本技术,支持多种语言的快速准确语音转录。它适用于客户自助服务、代理协助和语音分析等多种场景。IBM 提供了预训练的机器学习模型,并允许用户根据特定需求进行定制。此外,IBM Watson Speech to Text 还提供容器化库,供合作伙伴嵌入到商业应用中。
联系信息
服务时间: 7*24
电话号码: 1-800-426-4968

IBM 历史上的标志性时刻

1928年:穿孔卡片与美国人口普查

IBM的穿孔卡片成为了接下来50年里的行业标准,几乎承载了世界上所有的已知信息,使得大规模项目如美国人口普查得以实现。

1952年:数字存储的诞生

IBM通过磁带数据向世界介绍了数字存储,标志着从穿孔卡片计算器向电子计算机的转变。

1956年:人工智能的先声

亚瑟·L·塞缪尔编写程序,使IBM 704计算机能够下跳棋并从经验中学习。这被认为是人工智能的首次演示。

1969年:人类首次登月

在一项史诗般的工程壮举中,IBM为阿波罗任务构建了计算机和软件,成功帮助尼尔·阿姆斯特朗和巴兹·奥尔德林登上月球,并引导他们安全返回地球。

1997年:人工智能战胜国际象棋世界冠军

IBM的“深蓝”超级计算机击败了当时的世界国际象棋冠军。具备思考能力的计算机向前迈出了一大步,朝着我们今天所熟知和使用的那种人工智能迈进。

2021 年:全球首款 2 纳米芯片

在指甲盖大小的芯片上拥有 500 亿个晶体管(迄今为止密度最大的芯片),这项创新具有实现更环保的数据中心和更安全的自动驾驶汽车的潜力。

<
合作案例
>
<
最可能同场景使用的其他API
>