LLM之RAG实战（二十）|Chunk RAG分块策略的五个level

在RAG系统中，包括检索和生成两大组件，而检索的关键是对数据的分块策略，本文将根据Greg Kamradt的视频（https://www.youtube.com/watch?v=8OJC21T2SL4）整理如下五个分块级别策略，代码实现在参考文献[2]：

级别1：Fixed Size Chunking

这是最粗糙和最简单的文本分割方法。它将文本分解为指定数量的字符块，而不考虑其内容或结构。

Langchain和llamaindex框架为这种分块技术提供了CharacterTextSplitter和SentenceSplitter（默认为对句子进行拆分）类。需要记住的几个概念：

文本的拆分方式：按单个字符
区块大小的测量方式：按字符数
chunk_size：块中的字符数
chunk_overlap：在顺序块中重叠的字符数。跨块保留重复数据
分隔符：用于分割文本的字符（默认为“”）

级别2：Recursive Chunking

虽然固定大小的分块更容易实现，但它不考虑文本的结构。递归分块使用一组分隔符，以分层和迭代的方式将文本划分为更小的块。如果最初分割文本的尝试没有产生所需大小的块，则该方法会使用不同的分隔符递归地调用结果块，直到达到所需的块大小。

Langchain框架提供了RecursiveCharacterTextSplitter类，该类使用默认分隔符（“\n\n”, “\n”, “ “,””）分割文本

级别3：Document Based Chunking

在这种分块方法中，我们根据文档的固有结构对其进行拆分。这种方法考虑了内容的流动和结构，但可能不是缺乏明确结构的文件。

Document with Markdown：Langchain提供MarkdownTextSplitter类，以分隔符的方式分割Markdown文件。
Document with Python/JS：Langchain提供了PythonCodeTextSplitter来根据类、函数等对Python程序进行拆分，我们可以将语言提供到RecursiveCharacterTextSplitter类的from_langage方法中。
Document with tables：在处理表时，基于级别1和级别2的拆分可能会丢失行和列之间的表格关系。为了保持这种关系，以语言模型能够理解的方式格式化表内容（例如，使用HTML中的<table>标记、以“；”分隔的CSV格式等）。在语义搜索过程中，直接从表中匹配嵌入可能很有挑战性。开发人员可以在提取表格内容后进行摘要提取，然后针对该摘要生成嵌入，从而进行语义匹配。
Document with images (Multi- Modal)：图像和文本的嵌入内容可能不同（尽管CLIP模型支持这一点）。理想的策略是使用多模态模型（如GPT-4视觉）来生成图像的摘要并存储其嵌入。Unstructured.io提供了partition_pdf方法可以从pdf文档中提取图像。

第4级：语义块

以上三个级别都处理文档的内容和结构，并且需要保持块大小的恒定值。这种分块方法旨在从嵌入中提取语义，然后评估这些分块之间的语义关系。核心思想是将语义相似的块放在一起。

LlamaIndex具有SemanticSplitterNodeParser类，该类允许使用块之间的上下文关系将文档拆分为块，使用嵌入相似性自适应地选择句子之间的断点。

SemanticSplitterNodeParser超参数介绍：

buffer_size：配置块的初始窗口大小；
breakpoint_percentile_threshold：决定在何处分割块的阈值；
embed_model：使用的嵌入模型。

第5级：代理分块

这种分块策略探索了使用LLM来根据上下文确定块中应包含多少文本以及哪些文本的可能性。

为了生成初始块，参考论文《Dense X Retrieval: What Retrieval Granularity Should We Use?》，从原始文本中提取独立语句。Langchain提供了propositional-retrieval模板（https://templates.langchain.com/new?integration_name=propositional-retrieval）来实现这一点。

在生成命题之后，这些命题输入到基于LLM的代理。该代理确定命题是否应包括在现有块中，或者是否应创建新块。