
IT咨询顾问的关键抓手-DeepSeek+企业架构-快速的熟悉和洞察一个新的行业
人们对 LLM + RAG 的期望其实是很高的,认为它可能会颠覆知识产业。从逻辑上讲,这么想是有些道理的,LLM已经吃进去了互联网上所有的公开数据,而RAG机制则构建了动态的知识增强回路,相当于学到了数据里面所表示的知识,自然可以解答信息或知识层面的「任何」问题,理论上似乎是确实能端到端地做掉的。但是从另一方面来说,知识的运用远非简单的数据检索游戏。如果只是把一堆文件扔给学生,而不教给他们如何理解和分析,他们真的能找到问题的答案吗?
用RAG搭建过知识库就知道,在使用RAG搭建知识库的时候,整个索引、检索是基于文本块的,当有请求过来的时候,RAG首先根据请求去寻找哪些文本块是最相关、最匹配的,再把找到的文本块作为参考资料,连同请求一起给到大模型。
这种流程是极度依赖于基于相似度的向量检索技术,存在几个核心问题:
对应以上核心技术问题就会导致两个很普遍的现象:
知识图谱是对现实世界实体及其关系的结构化表示。它们由两个主要部分组成:节点和边。节点表示独立的实体,例如人物、地点、物体或概念。而边则表示节点之间的关系,表示它们如何相互关联。
这种结构使 LLM 能够访问精确且与上下文相关的数据,从而极大地提高了其生成信息丰富答案的能力,其核心优势在于:
将知识图谱(KG)引入 RAG 体系,就像为 AI 构建了一张清晰的“知识地图”。知识图谱能够表达实体之间的复杂关系,例如父子关系、朋友关系、因果关系等等,从而让 AI 不仅能够“查到”信息,更能够“理解”信息之间的逻辑,给出更准确、更智能的答案。从依赖自身到检索外部信息,再到利用知识图谱进行深度理解。
RAGFlow的V0.16.0版本以后对内置的GraphRAG做了重构,并且目前支持轻量级别的LightRAG和GraphRAG两种框架。GraphRAG利用图结构增强上下文关联性,适用于医疗、法律等复杂领域,LightRAG则强调轻量化和高效,能够显著降低延迟和计算成本。这里做一个实践记录与分享,实践略过了RAGFlow在window或者linux的安装步骤,需要的话可以留言,后面可以补充再出一篇安装教程。
RAGFlow 支持大多数主流 LLM平台,还支持使用 Ollama、Xinference 或 LocalAI 在本地部署 LLM,这里首先要添加并配置 LLM,点击页面右上角的徽标> 模特提供商:
每个 RAGFlow 帐户都可以免费使用通义千问的嵌入模型text-embedding-v2,这里单击你所拥有的 LLM平台并相应地更新 API 密钥,deepseek也有:
如果是采用本地部署的模型的话,可以找到Ollama,配置对应的embedding和chat模型,Ollama的基础URL为:
配置好后的模型列表,可以从“添加了的模型”这里看到:
配置好后,打开系统模型设置,其中img2txt模型就是OCR模型:
正确配置知识库对于 AI 智能助手至关重要,选择错误的嵌入模型或块方法很容易导致聊天中出现意外的语义丢失或答案不匹配。
在知识库配置中,RAGFlow 通过嵌入模型、解析方法、页面排名、自动关键词、自动问题、召回增强及 RAPTOR 策略等技术,提升检索和生成效果,其中:
往下翻到知识图谱部分,打开提取知识图谱,实体类型可以就选默认的,然后方法选择General,然后打开实体归一化和社区报告生成,其中,实体类型是知识图谱的重要组成部分。常见的实体类型包括:
实体归一化是指将不同表达方式的实体统一为标准形式。例如,“马云”可能在不同的文本中被表达为“Jack Ma”、“阿里巴巴创始人”等。实体归一化的目的是确保知识图谱中的实体具有唯一性和一致性,包括:
社区报告生成是 RAGFlow 中的一个重要功能,在这一步,区块被聚集成层次化的社区,实体和关系通过更高抽象层次将每个部分连接起来,它通过分析知识图谱中的实体和关系,生成结构化的报告。具体步骤包括:
配置完数据库后,上传一条文件,然后点击开始解析:
解析完后点击刷新,左侧会出现知识图谱菜单,点击进入查看建立好的知识图谱,其中每个深色的圆圈代表一个实体,实体之间的连线代表实体之间存在的关系。
外围淡色的圆圈代表实体组成的社区:
这里先来试一下检索,这是没有打开知识图谱的检索结果:
这是打开了知识图谱的检索结果:
然后,再测试一下,这个是没有带知识图谱的回答效果:
IT咨询顾问的关键抓手-DeepSeek+企业架构-快速的熟悉和洞察一个新的行业
基于Ollama与AnythingLLM的DeepSeek-R1本地RAG应用实践
模型引擎的技术债务?一个Deepseek三种API引发的连锁反应
Windows 上快速部署.NET Core Web 项目
.NET开发者看过来!DeepSeek SDK 集成
LangChain4j实战-Java AI应用开源框架之LangChain4j和Spring AI
后端开发人员Docker快速入门
生产级满血版Deepseek-r1 671B部署实例
生产级满血版Deepseek-r1 671B部署后续问题、调优以及压测