
Python 实时聊天室搭建:发布订阅频道API实战应用
与数据即服务或信息即服务相反,知识即服务以基于知识的产品的形式提供数据和上下文。与数据一起编码的上下文是语义网的核心概念,对于智能应用程序至关重要。上下文非常有用,因为它可以帮助最终用户和智能应用程序处理信息“含义”。
在历史信息索引(如搜索引擎或库)依赖于索引或字符串匹配(一组字符或单词的匹配)的情况下,信息和上下文允许更丰富的能力来大规模组织和过滤信息。
在对作为服务提供者的知识调查中,有两个主要趋势很突出。一些提供商依靠人工策展人或主题专家将上下文分层到一组信息上。这些提供商通常是处理相对较小的信息集合的利基提供商。作为服务提供商,这种形式的知识的一个例子可能是自然资源勘探公司。除了环境信号之外,在该领域的多年经验可能使人们能够“标记”特别值得注意的数据点,或者能够提取出其他数据解释者可能无法看到的模式。
第二组知识作为服务提供商以编程方式为信息添加上下文,特别是人工智能、自然语言处理和机器视觉。作为服务提供商的第二组知识的一个例子包括配备提供语义结果的搜索引擎、提供自然语言处理服务的公司以及知识图谱的创建者。
知识在历史上一直是一个难以捉摸的概念。但在实践中,知识作为服务提供者倾向于提供具有以下特征的服务。这些集群之间的主要区别通常是哪些信息正在被转化为知识,以及这是人类支持的知识还是以编程方式生成的知识即服务产品。
知识图谱是机器支持的知识即服务的典型代表。它们采用底层信息源,并将每个信息节点放入关系矩阵中。这提供了上下文。此外,不同实体类型的结构(如本体所描述的那样)允许以不同的方式表示不同类型的对象。
在 Diffbot 的知识图谱中,文章实体可能包含作者、情感、发布者、主题标签、日期等字段。同时,组织实体可能包含诸如融资轮次、员工、地点、子公司和新闻提及等事实。此外,可以链接不同的实体类型。例如,一个人可能为一个组织工作。或者一篇文章可能包含一个人作为演讲者。
您可以在下面的视频或我们的知识图谱本体文档页面中找到 Diffbot的知识图谱实体类型的基本概述。
自然语言处理是机器辅助知识即服务的第二个常见组成部分。如今,组织持有的大部分信息都是非结构化数据的形式。在这种规模下,人工口译员根本无法跟上。自然语言处理允许以编程方式解析非结构化文档以提取信息(充其量还包括上下文)。
Diffbot 的自然语言 API 旨在将您选择的自然语言语料库转化为知识图谱所需的原材料。也就是说,我们的 NL API 提取:
为了让 NLP 提供对您的工作流程很重要的知识,NLP 必须能够理解您认为有价值的实体类型。为此, Diffbot的 NL API 允许创建自定义实体类型。这意味着您可以在一系列利基市场和行业中使用基准排名靠前的 NLP 工具。
可以说,公共互联网是世界上最大的信息来源。但是,在线信息的结构通常不适合以编程方式解析或获得洞察力。这就是网络数据提取可以发挥作用的地方。
公共网络是 Diffbot 知识图谱的底层来源,它展示了将非结构化数据转化为信息和上下文(知识)的一种途径。
对于需要更频繁地构建 Web 的特定部分或寻求自定义值的团队,Web 数据提取可以提供更直接、更有影响力的数据源。
Diffbot 的 Crawlbot 与我们的自动提取 API 结合使用,使您能够快速、重复地抓取所有常见的页面类型,并从以前未结构化的数据中获得洞察力。
使用机器视觉和自然语言处理,我们的网络数据提取套件可以将公共网站转换为用于新闻监控、市场情报、电子商务使用或机器学习训练数据的上下文数据源。
原文链接:https://blog.diffbot.com/knowledge-graph-glossary/knowledge-as-a-service/