详解API:应用程序编程接口终极指南
6个最佳实体检测API,可准确返回实体的名称
命名实体识别(Named Entity Recognition)也称作实体检测(Entity Detection),是 NLP 技术手册中的一个重要工具。 在高级深度学习和机器学习模型的支持下,命名实体识别技术正被产品经理用来创建人工智能支持的工具,并将其应用到各行各业的智能平台中。 在本文中,我们将介绍命名实体识别技术的具体内容、工作原理、一些热门用例以及执行实体检测的最佳 API。
什么是命名实体识别或实体检测?
命名实体识别或实体检测应用深度学习模型来识别文本文档中的关键信息并进行分类。 例如,这可能是一篇新闻文章、一篇社交媒体帖子或一篇转录文本。
产品团队或开发人员使用实体检测来查找人名、组织或其他 “实体”,如地址、电话号码、社会保险号、地点等。
一般来说,实体检测需要两个步骤:
- 识别实体–如个人姓名或组织名称。
- 对识别出的实体进行分类–如 “地点 “或 “职业”。
例如,您可以确定实体为 “纽约市”,类别为 “地点”,或确定实体为 “AssemblyAI”,类别为 “公司”。
实体检测是如何工作的?
命名实体识别或实体检测的工作原理是识别结构化或非结构化文本中的显著对象。 这一过程对于分析各种文本非常有用。 例如,在 AssemblyAI,我们看到很多开发人员利用实体检测功能,从使用我们的语音到文本 API 转录的文本中提取实体。
如上所述,命名实体识别必须同时识别和分类这些信息。 用于实现这一目标的模型主要有两种:基于本体的模型和基于深度学习的模型。
基于本体的命名实体识别是一种基于知识的识别过程,它依赖于数据集列表(例如公司类别的公司名称列表)来进行推断。 因此,根据数据集与输入文本的相关程度,其准确性会有很大差异。 基于本体的模型适用于专业术语较多的主题,如医学或科学领域。
另外,基于深度学习的命名实体识别技术使用由数千、数百万甚至数十亿个参数组成的训练有素的神经网络来理解输入文本中单词和短语之间的语义和句法关系。 这些模型是在庞大、多样的数据集上训练出来的,能显著提高命名实体识别的准确率,超过基于本体的模型。
常见实体类型
以下是命名实体识别常用的实体名称列表:
顶级使用案例:
实体检测为何重要? 对于各行各业的产品团队和开发人员来说,实体检测是一种非常有价值的数据收集和分析工具。
例如:
电话和 CRM 平台: 识别特定人员、公司或竞争对手名称,并自动填充相关字段。 通过对对话进行分类,缩短客户响应时间。
招聘平台: 识别特定角色、职位、公司、薪资等,并自动填充相关字段。 快速整理简历,方便招聘流程。
虚拟会议平台: 识别特定人员、公司或竞争对手名称,并自动填充相关字段。 分析对话主题、参与者、地点等。
语音机器人: 识别人物、公司或竞争对手名称,自动触发相关操作,实现自动化和个性化互动。
医疗:识别病情、统计数据、药物、伤害等,对病人信息进行分类并分析结果。
通过收集这些实体信息,产品团队就能获得宝贵的客户或员工信息,无论其所属行业如何。 然后,这些团队就可以进行分析,增进对客户的了解,调整营销活动,修改产品等。
用于命名实体识别的最佳实体检测 API 是什么?
既然我们已经讨论了什么是命名实体检测(Named Entity Detection)以及它是如何工作的,下面就让我们来看看目前市场上最好的几种实体检测 API。 请注意,这些 API 中有些支持对已有文本进行实体检测,有些则对音频或视频流进行实体检测(同时进行转录)。
1. AssemblyAI
AssemblyAI 的实体检测 API 可在转录文本(如音频流)之上检测各种实体,其准确性达到业内最高水平。 AssemblyAI 经常更新其 API 产品,最近又增加了驾驶执照和银行信息(如账户和路由号码)作为可检测的额外实体。
开发人员和产品经理将 AssemblyAI 的实体检测 API 用于各种人工智能用例和行业,包括为尖端的收入智能平台和对话智能平台提供支持。
2. Dandelion
Dandelion 可对文档和社交媒体中的文本进行 “实体提取”。 基于欧洲的 API 支持英语、意大利语、法语、德语、葡萄牙语、西班牙语和俄语的实体检测,准确度各不相同。 目前还没有能够检测的实体列表。
希望测试实体检测工具的开发人员可以在一定范围内免费测试。
3. Google Natural Language
谷歌的自然语言应用程序接口(Natural Language API)还支持实体分析和提取,以及从非结构化文本中提取大量其他功能。 其服务分为两个部分:
- 实体分析 – 识别合同、收据等文档中的实体,并按类型对其进行标注。
- 自定义实体提取 – 识别文档中的实体,如上述实体,并根据自定义关键字或短语对其进行标注。
谷歌自然语言 API 的价格比其他 API 要高,不过他们也支持多达 5000 个字符的免费层级。 开发人员还可以将谷歌自然语言 API 与转录 API 结合使用,对音频流进行实体检测。
4. Azure 的认知服务
Azure 认知服务支持基于人工智能的分析,涵盖语音、语言、视觉、决策和 OpenAI 应用程序。 实体 “识别 “是其语言产品的一部分,允许用户检测文本或音频流中的常见和自定义实体。
虽然开发人员可以免费试用 Azure,但入门可能有点麻烦,尤其是在还需要语音识别服务的情况下。
5. TextRazor
TextRazor API 可帮助用户从各种文本文档中提取 “谁、什么、为什么和如何”。 其命名实体识别功能可以检测出人物、地点和公司等实体,还可以寻找消歧线索以提高准确率,但准确率仍低于其他实体检测 API。
起价为每月 200 美元,每天 6,000 次请求。
6. Allganize
最后,Allganize 是一个 NLU API。 命名实体识别(NER)应用程序接口旨在促进更好的客户互动,它可以分析文本,自动对关键词进行分类,并提取所提及的人、地点和事件的有意义信息。
他们的增长级提供免费试用,然后以每通电话 0.02 美元的价格拨打多达 10,000 个电话。
本文用到的实体识别API汇总
上文用到的实体识别api如下:
幂简集成 API Hub推荐如下国内替代服务商:
本文翻译源自:https://www.assemblyai.com/blog/6-best-named-entity-recognition-apis-entity-detection/