基于 Doubao 的 RAG 系统构建智能问答平台

RAG 系统概述

RAG（Retrieval-Augmented Generation，检索增强生成）是一种创新的文本生成方法，通过引入外部知识库来增强模型的生成能力。RAG 系统在生成文本时首先从知识库中检索相关信息，然后基于这些信息生成准确的回答。这一双重过程不仅提高了模型生成内容的准确性和可靠性，还能有效减少“幻觉”现象。

RAG 系统示意图

RAG 系统的核心在于如何高效地检索相关文档并生成高质量的文本。为了实现这一点，RAG 系统通常包括以下两个阶段：

检索阶段

在检索阶段，系统根据输入的问题从知识库中寻找相关信息。知识库可以是一个结构化的数据集，也可以是大量文档的集合。通过关键词匹配或向量相似度计算，RAG 系统能够快速找到与问题相关的文档。这一过程的准确性直接影响到生成阶段的效果。

生成阶段

在获取到相关文档后，RAG 系统将这些信息输入到大语言模型中，生成最终的回答。大语言模型通过结合用户问题和检索到的文档，生成符合逻辑且详细的回答。这一过程需要模型具备强大的理解和生成能力。

基于 Doubao 的系统构建

火山引擎提供的豆包（Doubao）模型是一种强大的大语言模型，适用于 RAG 系统的构建。通过火山引擎的云搜索服务与豆包模型的结合，可以搭建出高效的智能问答平台。

豆包模型示意图

云搜索服务配置

在火山引擎的平台上，首先需要配置云搜索服务。这一步骤包括创建 OpenSearch 实例，配置 CPU/内存比例，并启用语义嵌入模型。通过这些配置，可以确保系统具备高效的信息检索能力。

豆包模型部署

在完成云搜索服务的配置后，接下来是豆包模型的部署。在火山引擎方舟控制台中，可以创建模型推理接入点，选择适合的豆包模型版本，并获取 API Key。这些配置将用于后续的推理服务调用。

向量化知识库的创建

为了提高检索效率，RAG 系统通常会将文档转化为向量存储在知识库中。向量化的过程包括将文档分块、转换为向量，并存储到数据库中。

文档分块与向量化

文档的分块可以根据段落、句子等粒度进行，分块后的文档块通过 Embedding 模型转化为向量。将这些向量存储在 Elasticsearch 等数据库中，可以大大提高检索效率和准确性。

向量化示意图

from langchain_elasticsearch import ElasticsearchStore

elastic_vector_search = ElasticsearchStore(
    embedding=embeddings,
    index_name="langchain_index",
    es_url=ES_URL,
    es_api_key=ES_API_KEY,
)

检索与生成

一旦用户提交问题，RAG 系统将问题转化为向量，并在知识库中进行相似度检索。检索到的文档将与用户问题组合生成新的 prompt，输入到豆包模型中生成回答。

retriever = elastic_vector_search.as_retriever(
    search_type="similarity_score_threshold",
    search_kwargs={"score_threshold": 0.6, "k": 3}
)

retrieved_documents = retriever.invoke("新兴项目与突破")