所有文章 > 最佳API > 如何多维度评估语音转文本API的质量?
如何多维度评估语音转文本API的质量?

如何多维度评估语音转文本API的质量?

自 20 世纪 50 年代贝尔实验室发明 “奥黛丽 “以来,语音文字识别技术已经取得了长足的进步。 奥黛丽只能理解数字,直到十年后,研究人员才增加了基本的文字理解功能。

如今,语音到文本识别和人工智能转录的准确率已迅速接近人类的准确率水平。 尖端的人工智能研究还将语音转文本技术从异步转录推向了实时转录,从而带来了利用语音转文本技术的产品和服务的蓬勃发展。

语音转文本 API 在准确性、可访问性和经济性方面取得了长足进步,这意味着越来越多的公司正在寻找业界最佳的语音转文本 API 来支持创新产品和功能。 市场上的语音转文本应用程序接口比以往任何时候都多,您该如何选择最适合您的产品或使用案例的应用程序接口呢? 回答这六个问题是一个很好的起点:

1.   API 的准确性如何?

在比较应用程序接口时,准确性是最重要的考虑因素。 词错误率(或 WER)是衡量自动语音识别(ASR)系统准确性的标准。 其计算方法是将 ASR 模型转录的文本与人工转录的文本进行比较。

计算语音转文本软件或应用程序接口准确度的最彻底方法是确定音频/视频文件的误码率。 虽然这种方法是最彻底的,但也有很多工作要做! 除其他步骤外,它还要求由人工转录音频/视频文件,使用您正在评估的语音转文本 API 转录这些文件,然后计算音频/视频文件的 WER。

如果您正在寻找一款能在嘈杂音频环境中工作的精确语音到文本 API,AssemblyAI 的 Conformer-2 现已上市。 Conformer-2 是在 110 万小时音频数据基础上训练出来的最先进的语音识别模型,在各种数据中都能实现接近人类水平的性能和鲁棒性。

Diffchecker 是比较 API 准确性的另一个重要资源。 Diffchecker 可让您比较两个文本块,例如来自两个不同 API 的文本块,或来自一个 API 和一个人工转录的文本块,并显示添加和删除了哪些内容。 它还能让你用肉眼快速比较两个大文本块之间的差异。

使用 Diffchecker 时,问问自己:API 错漏了什么? 专有名词是否大写? 说话者的口音或方言是否会影响转录? 语境是否是一个因素?

请参阅使用 Diffchecker 进行文本对比的示例:

正如您所看到的,文本 1 有 12 处删除,文本 2 有 11 处添加。 仔细观察突出显示的文字,可以发现一些细微差别,例如文本 1 中的 “black as “与文本 2 中的 “Black is”。

WER 和 Diffchecker 可以一起成为确定准确度的强大工具。

2.   API 还提供哪些功能和模式?

接下来,您应该了解 API 提供哪些附加功能。 这将有助于您从原始转录中获得更多信息。

常见的人工智能功能包括:

  • 发言者日志
  • 身份信息销毁
  • 自动章节/摘要
  • 主题检测
  • 内容安全检测
  • 段落检测
  • 情感分析
  • 信心分数
  • 自动标点符号和大小写
  • 亵渎语言过滤
  • 实体检测
  • 自定义词汇
  • 还有更多……

在选择语音转文本 API 时,还应评估新功能发布的频率和模型更新的频率。

最好的语音转文本应用程序接口都有一个人工智能研究团队,他们根据新的人工智能突破不断改进人工智能模型。 在 ASR 领域,有些功能在达到人类准确度之前还有很长的路要走。 您所选择的应用程序接口应始终致力于改进其模型并提高准确性。

确保查看 API 的更新日志和更新内容,这些内容应透明且易于访问。 例如,AssemblyAI 每周都会通过公开的更新日志进行更新。 如果一个应用程序接口没有更新日志,或者更新日志的频率不高,这就是一个危险信号。

3.   您可以期待什么样的支持?

谷歌云(Google Cloud)和 AWS 等大型科技公司提供的应用程序接口往往得不到支持,更新也不频繁。

当您利用语音转文本 API 在产品中构建新功能时,难免会遇到问题或需要支持。 因此,您应该寻找能够为您和您的开发团队提供专门、快速支持的 API。 应通过电子邮件、消息或 Slack 等多种渠道提供全天候支持。

应为您指派专门的客户经理和支持工程师,为您提供集成支持,快速处理支持请求,并帮助您找出最佳集成功能。

还要考虑:

  • 正常运行时间报告(应达到或接近 100%)
  • G2 等网站上的客户评价和奖项
  • 如上文所述,可访问的更新日志,更新内容详细且频繁
  • 通过 1:1 技术实施提供卓越支持

4.   API 是否提供透明的价格和文件?

应用程序接口定价不应该是猜谜游戏。 您正在考虑的所有 API 都应提供透明、易于解读的定价,以及针对高使用量的批量折扣。 如果能提供 API 的免费试用版,让您在承诺购买之前了解 API,那就更好了。

注意隐藏的额外成本–例如,Google Cloud 的 Speech-to-Text API 只能转录托管在 GCP Buckets 中的数据–这可能会大幅增加您的成本。 OpenAI 的 Whisper API 以 25MB 为单位发送数据,因此很难扩展或处理大型文件。 API 文档也应易于访问。 这样您就能更好地了解将应用程序接口集成到应用程序中的难易程度。

5.   数据的安全性如何?

将应用程序接口集成到技术堆栈中时,数据安全始终是首要考虑因素。

在选择语音转文本 API 之前,一定要问清楚:

  • API 是否会保留我的音频/视频文件的副本,以便改进其模型?
  • API 是否保留我的转录文件副本?
  • 如果它确实保留了副本,我是否可以随时要求它永久删除我的音频/视频或转录文件? 多快能满足我的要求?
  • API 是否将我的数据货币化?

不幸的是,许多 API 对上述问题的回答都是 “是”–不要以为他们会优先考虑你的数据安全,而不是他们的个人利益! 相反,AssemblyAI 会认真对待数据安全,对每个问题都回答 “否”。

6.   创新是优先事项吗?

语音文本识别领域正处于不断创新的阶段。 您所考虑的任何应用程序接口都应高度重视人工智能研究。

还要确保 API 的研究方向是频繁更新模型。 要达到人类的准确度水平,像说话人日记化和情感分析这样的功能和模型还有很长的路要走,因此团队必须不断努力,利用人工智能研究的最新进展来改进这些领域。

应用程序接口的更新日志是一个很好的方法,通过它可以确定声明将创新作为优先事项的应用程序接口与展示真正创新的应用程序接口之间的区别。 注意对模型版本的描述,以及他们是如何分割模型更新的。

例如,AssemblyAI 通过其更新日志定期发布 ITN 和标点符号等功能的详细更新。 其他公司可能有更新日志,但提供的信息有限。

比较语音转文本应用程序接口

在比较语音转文本应用程序接口时,显然需要考虑很多问题!

概括起来,以下是向每个应用程序接口提出的关键问题:

  1. 应用程序接口的准确性如何?
  2. 应用程序接口提供哪些附加功能?
  3. 您可以期待什么样的支持?
  4. 应用程序接口是否提供透明的定价和文档?
  5. 您的数据有多安全?
  6. 创新是优先事项吗?

7.   有哪些优秀的语音转文本API

幂简集成汇总了一些优质的语音转文本API,供开发者参考集成:

如何找到语音转文本API

幂简集成是国内领先的API集成管理平台,专注于为开发者提供全面、高效、易用的API集成解决方案。幂简API平台可以通过以下两种方式找到所需API:通过关键词语音转文本(例如,输入’语音转文本‘这类品类词,更容易找到结果)、或者从API Hub分类页进入寻找。

此外,幂简集成博客会编写API入门指南、多语言API对接指南、API测评等维度的文章,让开发者快速使用目标API。

本文翻译源自:https://www.assemblyai.com/blog/how-to-choose-the-best-speech-to-text-api-for-your-product/#1-how-accurate-is-the-api

#你可能也喜欢这些API文章!