如何多维度评估语音转文本API的质量？

自 20 世纪 50 年代贝尔实验室发明 “奥黛丽 “以来，语音文字识别技术已经取得了长足的进步。奥黛丽只能理解数字，直到十年后，研究人员才增加了基本的文字理解功能。

如今，语音到文本识别和人工智能转录的准确率已迅速接近人类的准确率水平。尖端的人工智能研究还将语音转文本技术从异步转录推向了实时转录，从而带来了利用语音转文本技术的产品和服务的蓬勃发展。

语音转文本 API 在准确性、可访问性和经济性方面取得了长足进步，这意味着越来越多的公司正在寻找业界最佳的语音转文本 API 来支持创新产品和功能。市场上的语音转文本应用程序接口比以往任何时候都多，您该如何选择最适合您的产品或使用案例的应用程序接口呢？回答这六个问题是一个很好的起点：

1. API 的准确性如何？

在比较应用程序接口时，准确性是最重要的考虑因素。词错误率（或 WER）是衡量自动语音识别（ASR）系统准确性的标准。其计算方法是将 ASR 模型转录的文本与人工转录的文本进行比较。

计算语音转文本软件或应用程序接口准确度的最彻底方法是确定音频/视频文件的误码率。虽然这种方法是最彻底的，但也有很多工作要做！除其他步骤外，它还要求由人工转录音频/视频文件，使用您正在评估的语音转文本 API 转录这些文件，然后计算音频/视频文件的 WER。

如果您正在寻找一款能在嘈杂音频环境中工作的精确语音到文本 API，AssemblyAI 的 Conformer-2 现已上市。 Conformer-2 是在 110 万小时音频数据基础上训练出来的最先进的语音识别模型，在各种数据中都能实现接近人类水平的性能和鲁棒性。

Diffchecker 是比较 API 准确性的另一个重要资源。 Diffchecker 可让您比较两个文本块，例如来自两个不同 API 的文本块，或来自一个 API 和一个人工转录的文本块，并显示添加和删除了哪些内容。它还能让你用肉眼快速比较两个大文本块之间的差异。

使用 Diffchecker 时，问问自己：API 错漏了什么？专有名词是否大写？说话者的口音或方言是否会影响转录？语境是否是一个因素？

请参阅使用 Diffchecker 进行文本对比的示例：

正如您所看到的，文本 1 有 12 处删除，文本 2 有 11 处添加。仔细观察突出显示的文字，可以发现一些细微差别，例如文本 1 中的 “black as “与文本 2 中的 “Black is”。

WER 和 Diffchecker 可以一起成为确定准确度的强大工具。

2. API 还提供哪些功能和模式？

接下来，您应该了解 API 提供哪些附加功能。这将有助于您从原始转录中获得更多信息。

常见的人工智能功能包括：

发言者日志
身份信息销毁
自动章节/摘要
主题检测
内容安全检测
段落检测
情感分析
信心分数
自动标点符号和大小写
亵渎语言过滤
实体检测
自定义词汇
还有更多……

在选择语音转文本 API 时，还应评估新功能发布的频率和模型更新的频率。

最好的语音转文本应用程序接口都有一个人工智能研究团队，他们根据新的人工智能突破不断改进人工智能模型。在 ASR 领域，有些功能在达到人类准确度之前还有很长的路要走。您所选择的应用程序接口应始终致力于改进其模型并提高准确性。

确保查看 API 的更新日志和更新内容，这些内容应透明且易于访问。例如，AssemblyAI 每周都会通过公开的更新日志进行更新。如果一个应用程序接口没有更新日志，或者更新日志的频率不高，这就是一个危险信号。

3. 您可以期待什么样的支持？

谷歌云（Google Cloud）和 AWS 等大型科技公司提供的应用程序接口往往得不到支持，更新也不频繁。

当您利用语音转文本 API 在产品中构建新功能时，难免会遇到问题或需要支持。因此，您应该寻找能够为您和您的开发团队提供专门、快速支持的 API。应通过电子邮件、消息或 Slack 等多种渠道提供全天候支持。

应为您指派专门的客户经理和支持工程师，为您提供集成支持，快速处理支持请求，并帮助您找出最佳集成功能。

还要考虑：

正常运行时间报告（应达到或接近 100%）
G2 等网站上的客户评价和奖项
如上文所述，可访问的更新日志，更新内容详细且频繁
通过 1:1 技术实施提供卓越支持

4. API 是否提供透明的价格和文件？

应用程序接口定价不应该是猜谜游戏。您正在考虑的所有 API 都应提供透明、易于解读的定价，以及针对高使用量的批量折扣。如果能提供 API 的免费试用版，让您在承诺购买之前了解 API，那就更好了。

注意隐藏的额外成本–例如，Google Cloud 的 Speech-to-Text API 只能转录托管在 GCP Buckets 中的数据–这可能会大幅增加您的成本。 OpenAI 的 Whisper API 以 25MB 为单位发送数据，因此很难扩展或处理大型文件。 API 文档也应易于访问。这样您就能更好地了解将应用程序接口集成到应用程序中的难易程度。