所有文章 > 最佳API > 顶级免费语音转文字API及开源语音转录引擎
顶级免费语音转文字API及开源语音转录引擎

顶级免费语音转文字API及开源语音转录引擎

选择最佳的免费语音转文字、大语言模型或开源引擎进行构建是一项挑战。 您需要对准确性、模型设计、功能、支持选项、文档、安全性等方面进行比较。本篇文章将介绍目前市场上最好的免费语音转文字API和人工智能模型,包括那些具有免费层级的模型,以帮助您做出明智的决定。我们还将介绍几种免费的开源语音转文本引擎,并探讨为什么要选择 API 或人工智能模型而不是开源库,反之亦然。

免费语音转文字应用程序接口和人工智能模型

与开源选项相比,应用程序接口和人工智能模型更准确、更易于集成,并具有更多开箱即用的功能。 不过,大规模使用应用程序接口和人工智能模型的成本可能高于开源选项。

如果您希望在小型项目或试运行中使用 API 或人工智能模型,当今许多免费语音转文字API 和人工智能模型都有免费层。 这意味着,在每天、每月或每年达到一定数量的情况下,任何人都可以免费使用 API 或模型。

让我们比较一下三种最流行的语音转文本 API 和免费人工智能模型: AssemblyAI、Google 和 AWS Transcribe。

AssemblyAI

AssemblyAI是一个 API 平台,提供能准确转录和理解语音的人工智能模型,使用户能从语音数据中提取见解。 AssemblyAI 提供最前沿的人工智能模型,如说话人记录、主题检测、实体检测、自动标点符号和大小写、内容调节、情感分析、文本摘要等。 这些人工智能模型可以帮助用户从语音数据中获得更多信息,并不断提高准确性。

AssemblyAI 还提供 LeMUR,使用户能够利用大型语言模型 (LLM) 从语音数据中获取有价值的信息,包括回答问题、生成摘要和行动项目等。

该公司为音频文件或视频流提供多达 100 小时的免费转录服务,并发限制为 5,然后过渡到经济实惠的付费层级。

AssemblyAI 的高准确性和由人工智能专家构建的多种人工智能模型集合,使 AssemblyAI 成为开发人员寻找免费免费语音转文字API 的理想选择。 该 API 还支持几乎所有的音频和视频文件格式,使转录更加方便。

AssemblyAI 已将其支持的语言扩展到英语、西班牙语、法语、德语、日语、韩语等更多语言,并且每月还将发布更多语言。 点击此处查看完整列表。

AssemblyAI 易于使用的模型还允许使用任何编程语言进行快速设置和转录。 您可以直接从 AssemblyAI 文档中复制/粘贴您首选语言的代码示例,或使用 AssemblyAI Python SDK 或其他随时可用的集成。

标价:

  • 可在人工智能游乐场免费测试,注册 API 还可免费获得 100 小时的异步转录服务
  • 语音到文本 – 每小时 0.37 美元
  • 实时转录 – 每小时 0.47 美元
  • 音频智能 – 每小时 0.01 至 0.15 美元不等
  • LeMUR –有所不同
  • 还提供企业定价

优点:

  • 高精度
  • 由人工智能专家构建的广泛的人工智能模型
  • 不断迭代和改进模型
  • 便于开发人员使用的文档和 SDK
  • 企业级支持和安全

缺点:

  • 模型不是开源的

Google

Google Speech-to-Text 是一个著名的语音转文字API。 谷歌为用户提供 60 分钟的免费转录服务,并为谷歌云主机提供 300 美元的免费积分。

谷歌只支持转录谷歌云桶中的文件,因此免费点数并不能帮你做什么。 谷歌还要求你注册一个 GCP 账户和项目,无论你使用的是免费层还是付费层。

谷歌的准确度很高,支持 125 种以上的语言,如果你愿意花点功夫,谷歌是一个不错的选择。

标价:

  • 60 分钟免费转录
  • 300 美元的 Google 云主机免费点数

优点:

  • 免费层
  • 适当的精确度
  • 多语言支持

缺点:

  • 仅支持转录 Google Cloud Bucket 中的文件
  • 启动困难
  • 精度低于其他同价位的应用程序接口

AWS Transcribe

AWS Transcribe 在使用的前 12 个月每月提供一小时的免费服务。

与谷歌一样,如果您还没有 AWS 账户,则必须先创建一个。 与其他 API 相比,AWS 的准确性也较低,而且只支持转录亚马逊 S3 存储桶中的文件。

不过,如果您正在寻找特定的功能,比如医疗转录,AWS 也有一些选择。 它的 Transcribe Medical API 是一个以医疗为重点的 ASR 选项,目前已经可用。

标价:

  • 在使用的前 12 个月内,每月免费使用一小时
  • 根据用量分级定价,从 0.02400 美元到 0.00780 美元不等

优点:

  • 与现有 AWS 生态系统集成
  • 医学语言转录
  • 适当的精确度

缺点:

  • 难以从头开始
  • 仅支持转录 Amazon S3 存储桶中的文件
  • 精度低于其他同价位的应用程序接口

开源语音转录引擎

作为应用程序接口(API)和人工智能模型的替代品,开源语音转文本库完全免费,没有使用限制。 一些开发人员还认为数据安全也是一个优点,因为您的数据不必发送到第三方或云端。

使用开源引擎需要投入大量工作,因此您必须愿意付出大量时间和精力来获得您想要的结果,尤其是当您试图大规模使用这些库时。 开源语音转文本引擎的准确度通常低于上述 API。

如果你想走开源路线,这里有一些值得探索的选择:

DeepSpeech

DeepSpeech 是一个开源嵌入式语音转文本引擎,可在各种设备(从高功率 GPU 到 Raspberry Pi 4)上实时运行。 DeepSpeech 库采用百度首创的端到端模型架构。

作为一款开源软件,DeepSpeech 的开箱即用准确度也很高,而且很容易在自己的数据上进行微调和训练。

优点:

  • 易于定制
  • 可用于训练自己的模型
  • 可用于多种设备

缺点:

  • 缺乏支持
  • 在个人定制培训之外,无法改进模型
  • 将重型设备集成到可投入生产的应用中

Kaldi

Kaldi 是一款语音识别工具包,多年来在研究界广受欢迎。 与 DeepSpeech 一样,Kaldi 也具有良好的开箱即用准确性,并支持训练自己的模型。 此外,Kaldi 还经过了全面的测试–许多公司目前都在生产中使用 Kaldi,并且已经使用了一段时间,这让更多开发人员对其应用充满信心。

优点:

  • 适当的精确度
  • 可用于训练自己的模型
  • 活跃用户群

缺点:

  • 使用起来可能比较复杂和昂贵
  • 使用命令行界面
  • 将重型设备集成到可投入生产的应用中

Flashlight ASR (formerly Wav2Letter)

Flashlight ASR(前身为 Wav2Letter)是 Facebook AI Research 的自动语音识别(ASR)工具包。 它也是用 C++ 编写的,并使用 ArrayFire 张量库。

与 DeepSpeech 一样,Flashlight ASR 对于开源库来说也非常准确,而且易于在小型项目中使用。

优点:

  • 可定制
  • 比其他开源方案更容易修改
  • 处理速度

缺点:

  • 使用非常复杂
  • 没有预训练库
  • 需要为训练和模型更新不断获取数据集,这可能既困难又昂贵

SpeechBrain

SpeechBrain 是一个基于 PyTorch 的转录工具包。 该平台发布了热门研究成果的开放式实现,并与 Hugging Face 紧密集成,便于访问。

总之,该平台定义明确,并不断更新,是培训和微调的直接工具。

优点:

  • 与 Pytorch 和 Hugging Face 集成
  • 可提供预训练模型
  • 支持各种任务

缺点:

  • 即使是预先训练好的模型,也需要进行大量定制才能使用
  • 由于缺乏广泛的文档,除了那些具有丰富经验的用户外,它对其他用户并不友好

Coqui

Coqui 是另一款用于语音到文本转录的深度学习工具包。 Coqui 已在二十多种语言的项目中使用,还提供各种基本推理和生产化功能。

该平台还可发布定制的训练模型,并为各种编程语言提供绑定,以方便部署。

优点:

  • 可以生成成绩单的置信度分数
  • 庞大的支持社区
  • 可提供预训练模型

缺点:

  • 不再由 Coqui 更新和维护
  • 在个人定制培训之外,无法改进模型
  • 将重型设备集成到可投入生产的应用中

Whisper

OpenAI 于 2022 年 9 月发布的 Whisper 可与当前其他最先进的开源方案相媲美。

Whisper 既可以在 Python 中使用,也可以在命令行中使用,还可以用于多语言翻译。

Whisper 有五种不同的型号,大小和功能各不相同,具体取决于使用情况,其中包括 2023 年 11 月发布的 v3 型。

不过,您需要相当大的计算能力和内部团队来维护、扩展、更新和监控模型,才能大规模运行 Whisper,这使得总拥有成本高于其他选择。

从 2023 年 3 月起,Whisper 还可通过 API 使用。 按需定价起价为 0.006 美元/分钟。

优点:

  • 多种语言转录
  • 可在 Python 中使用
  • 有五种型号可供选择,每种型号都有不同的尺寸和功能

缺点:

  • 需要一个内部研究团队来维护和更新
  • 运行成本高
  • 将重型设备集成到可投入生产的应用中

免费语音转文字API常见问题有哪些?

  1. 免费语音转文字的基础模型和自定义模型有什么区别?
  • 免费语音转文字服务中,基础模型适用于通用场景,而自定义模型则针对特定噪音环境或专业术语进行优化。
  1. 如何开始使用免费语音转文字的基础模型?
  • 使用免费语音转文字服务时,首先获取资源密钥和区域,然后通过REST API或语音SDK开始使用基础模型。
  1. 使用免费语音转文字时,是否需要自定义模型?
  • 对于使用通用语言且背景噪音小的应用,免费语音转文字的基础模型已足够,无需自定义模型。
  1. 如何跟踪免费语音转文字数据集或模型的处理进度?
  • 在免费语音转文字服务中,可以通过查看模型或数据集的状态来了解处理进度,完成时会显示“成功”。
  1. 免费语音转文字服务中能否创建多个模型?
  • 是的,免费语音转文字允许创建多个模型,但一旦开始创建过程,无法取消,只能在完成后删除。
  1. 为什么免费语音转文字服务提供多个基础模型?
  • 免费语音转文字服务提供多个基础模型以适应不同的应用场景和提高识别准确度。
  1. 免费语音转文字的现有模型能否更新?
  • 无法直接更新,需要重新训练模型。在免费语音转文字服务中,可以通过合并新旧数据集来创建新模型。
  1. 新版本基础模型上线后,我的免费语音转文字部署会自动更新吗?
  • 不会,免费语音转文字服务不会自动更新已部署的模型,需要手动操作以使用新模型。
  1. 能否下载免费语音转文字模型并在本地运行?
  • 可以,免费语音转文字的自定义模型可以在本地Docker容器中运行。
  1. 能否将免费语音转文字的数据集、模型和部署迁移到其他区域或订阅?
  • 可以使用相关API将免费语音转文字的自定义模型复制到其他区域或订阅,但数据集和部署需要重新导入和创建。

哪种免费的语音转文本 API、人工智能模型或开源引擎适合您的项目?

最佳的免费免费语音转文字API、人工智能模型或开源引擎取决于我们的项目。 您是否想要一些简单易用、准确度高并具有其他开箱即用功能的东西?

幂简集成是国内领先的API集成管理平台,专注于为开发者提供全面、高效、易用的API集成解决方案。幂简API平台可以通过以下两种方式找到所需API:通过关键词搜索API、或者从API Hub分类页进入寻找。

本文翻译源自:https://www.assemblyai.com/blog/the-top-free-speech-to-text-apis-and-open-source-engines/

#你可能也喜欢这些API文章!