RAG 演进：从 1.0 到 4.0

引言

如果你对 RAG 的认知还停留在向量检索阶段，那你的 RAG 架构可能已经落后了整整两个世代。

RAG（Retrieval-Augmented Generation）的演进可以划分为四个阶段：Naive RAG（1.0）、Advanced RAG（2.0）、Modular RAG（3.0）、Agentic RAG（4.0）。每一阶段都是对上一阶段核心瓶颈的突破。下面通过一个智能客服的迭代故事，讲清楚这四个版本的本质差异。

本文基于两篇 RAG 领域教科书级别的论文： 一篇是 RAG 的开山之作，首次系统性提出了三种检索范式；另一篇统一了 RAG 的技术框架，标准化了领域术语。

引言 - RAG 技术演进全景
RAG 1.0：Naive RAG - 从零到一的三段式架构
- 2.1 工作流程
- 2.2 三大瓶颈
RAG 2.0：Advanced RAG - 检索前后的精细化优化
- 3.1 检索前：查询改写与假设答案法
- 3.2 检索后：重排序与混合检索
- 3.3 效果与新瓶颈
RAG 3.0：Modular RAG - 模块化与灵活检索
- 4.1 核心模块
- 4.2 灵活检索策略
Graph RAG：知识图谱的结构化补充
RAG 4.0：Agentic RAG - 主动规划与自我反思
选型指南 - 不同场景该用哪一代？
总结 - 四代 RAG 全景对比

RAG 1.0：Naive RAG

时间回到 2020 年，你上线了第一代智能客服，使用了最基础的 RAG 技术——一个典型的三段式架构。

2.1 工作流程

整个流程分三步：

建立索引：把所有 QA 文档、商品说明、售后政策进行切块，转化为向量存进数据库。
检索：用户提问「我买的手机支持以旧换新吗？」，系统把问题向量化，去数据库里找到最相关的五段内容。
生成：把检索到的五段内容和用户的问题一起给到大模型，让它回答。

2.2 三大瓶颈

这套架构能跑起来，但很快你发现了三个致命问题：

瓶颈	具体表现	根因
检索不精准	用户问「换新」，系统检索到「回收」政策	向量检索基于相似度，「换新」和「回收」在向量空间里接近，但语义完全不同
信息不完整	以旧换新政策分散在三份文档里，一次只找到一份	单次检索无法覆盖跨文档的完整信息
信息矛盾	不同文档写的适用机型不一致，回答前后矛盾	没有去重和时效性校验机制

核心问题：检索前问题不够清晰，检索后结果不够精准。 这两个端点的缺陷，直接催生了第二代的进化方向。

RAG 2.0：Advanced RAG

针对 1.0 的瓶颈，系统进化为第二代——在检索前和检索后分别做了精细化优化。

3.1 检索前：查询改写与假设答案法

用户的提问往往很随意——「能换吗？」「支持吗？」「可以吗？」同一个问题问法五花八门，还有各种歧义。Advanced RAG 在检索前增加了两个关键步骤：

查询改写（Query Rewriting）：先让 AI 对用户的问题进行扩写、澄清，生成多个表述，再用改写后的问题去检索，覆盖面会扩大很多。

假设答案法（HyDE）：先让 AI 根据问题生成一段假设性的答案——

「本平台支持以旧换新服务，符合条件的机型包括……」

然后用这段假设的答案再去检索。因为答案的语义往往比问题更接近真实的文档，检索效果往往更好。

3.2 检索后：重排序与混合检索

找到相关文档只是第一步，怎么把最关键的内容筛选出来？

图中展示了 Advanced RAG 的完整检索链路。两个核心优化：

重排序（Reranking）：初步检索可能找到 50 个候选段落，但给到 AI 的只有 Top5。用一个专门的重排序模型对候选做精细化打分，把最关键的排到最前面。
混合检索（Hybrid Search）：向量检索擅长语义理解，但对专有名词不敏感。比如 iPhone 14 Pro Max 和 iPhone 14 Pro 在向量空间里很接近，但用户问 Pro Max 的价格，你给 Pro 的价格就是错的。把向量检索和关键词检索结合起来，向量负责语义理解，关键词负责精准匹配专有名词，准确率大幅提升。

3.3 效果与新瓶颈

经过这轮优化，智能客服的准确率从 60% 提升到 80%，用户投诉明显减少。

但新的问题来了。 用户问：

「我在北京想给上海的朋友买个手机，能直接发到上海吗？如果他不喜欢能退吗？退货的运费谁出？」

这是一个多步骤、跨领域的复杂问题，涉及配送政策、退货政策、运费政策。第二代 RAG 的固定流程一次检索该找什么？找配送、找退货还是找运费？固定流程无法拆解复杂问题。

RAG 3.0：Modular RAG

第三代 RAG 打破了固定流程，把 RAG 变成了一堆可以自由组合的功能模块。

4.1 核心模块

上图展示了 Modular RAG 的模块化架构。三个核心模块各司其职：

路由模块（Routing）：根据问题类型智能决定查哪部分数据——配送问题查配送库，退货问题查退货库。
记忆模块（Memory）：记住历史对话上下文，避免重复提问。
融合模块（Fusion）：对多个来源的结果进行去重合并，避免重复或矛盾信息。

4.2 灵活检索策略

Modular RAG 的检索方式也变得更灵活，支持三种策略：

策略	工作方式	适用场景
迭代检索	检索→生成→再检索→再生成，交替进行	多步骤问题（如配送+退货+运费拆成三轮检索）
分层检索	先检索目录，再检索内容	论文、著作等有层级结构的知识库
自适应检索	根据当前结果质量动态决定是否继续检索	不确定需要几轮检索的场景

第三代 RAG 让智能客服真正具备了应对复杂咨询的能力。 准确率提升到 85%，复杂问题的解决率翻倍。

Graph RAG：知识图谱的结构化补充

在讲第四代之前，需要单独介绍 Graph RAG。

一个典型场景

用户问：「我上个月买的那款你们跟某某品牌联名的手机，它的设计师之前还出过哪些作品？」

这个问题需要理解多层关系：商品→品牌→设计师→设计师的其他作品。传统的向量检索处理的是孤立的文本片段，不理解实体之间的关系。

Graph RAG 的做法

微软提出了一个革命性方案：用知识图谱重构 RAG。

从图中可以看出，Graph RAG 将实体和关系组织成一张网络：

构建阶段：不再只是把文档切块存向量，而是先提取实体以及实体之间的关系，把这些关系和实体连成一张网（知识图谱），再进行向量索引。
查询阶段：不再只是简单的向量匹配，而是在图谱上进行推理——从商品定位到品牌，再从品牌推理到设计师，再去推理设计师的所有作品。

定位

Graph RAG 不算是第三代的升级，而是补充了普通向量检索覆盖不到的「多跳推理」和「深度分析」场景。

实践中可以把传统 RAG 和 Graph RAG 结合：日常查询用 Modular RAG，需要深度分析关系时用 Graph RAG。不过 Graph RAG 的构图成本很高（是普通 RAG 的 10-20 倍），查询也比较慢，目前使用的公司不多。

RAG 4.0：Agentic RAG

Modular RAG 和 Graph RAG 分别从灵活性和结构性两个维度提升了 RAG 的能力，但它们还有一个共同的根本性限制——被动响应。

用户提问，系统响应，没有主动规划，没有自我反思，不会在发现答案不够好的时候主动补充检索，更不会把复杂任务拆解成多个执行计划。这个限制催生了第四代 Agentic RAG。

工作方式

以「我想买个手机送给妈妈，她不会用，你帮我推荐一下，顺便告诉我怎么教她用」为例：

从流程图中可以看到，Agentic RAG 的核心在于自主循环：

分析需求：理解用户意图，识别出需要推荐和教程两类信息。
制定计划：拆解搜索计划——先搜什么，再搜什么。
执行搜索：按计划逐步执行，同时配备工具箱，自主决定用哪个工具、什么时候调用。
自我评估：评估输出质量——内容好不好，符不符合要求？不满意就重新检索，直到满意为止。

选型指南：不同场景该用哪一代？

技术没有绝对的好坏，只有适不适合。 不要盲目追求最新一代，要结合实际场景做选择。

代际	准确率	成本	延迟	适用场景
1.0 Naive RAG	~60%	低	低	原型验证、简单 FAQ
2.0 Advanced RAG	~80%	中	低	常规电商客服、文档问答（覆盖 80-90% 场景）
3.0 Modular RAG	~85%	中高	中	多步骤复杂咨询、跨领域问题
4.0 Agentic RAG	90%+	高	高	开放式研究、多轮深度分析
Graph RAG	—	很高（10-20x）	高	多跳推理、实体关系分析

选型建议：

常规电商客服 → Advanced RAG 就够用，性价比最高
有复杂咨询需求 → 升级到 Modular RAG
需要多跳推理（如品牌→设计师→作品）→ 补充 Graph RAG
需要自主规划、开放式问题 → 上 Agentic RAG

关键决策因素：用户等待时间容忍度、问题复杂度、团队技术能力、预算。

总结

代际	核心突破	解决的问题	新增的问题
1.0 Naive RAG	三段式架构（索引→检索→生成）	让大模型能基于外部知识回答	检索不精准、信息不完整、信息矛盾
2.0 Advanced RAG	检索前查询改写 + 检索后重排序	检索质量和结果筛选	无法处理多步骤复杂问题
3.0 Modular RAG	模块化架构 + 灵活检索策略	复杂问题拆解与多源融合	被动响应，无主动规划
Graph RAG	知识图谱 + 实体关系推理	多跳推理与深度分析	构图成本高、查询慢
4.0 Agentic RAG	主动规划 + 自我反思 + 工具调用	自主决策与质量闭环	成本高、延迟大

每一代 RAG 都是在解决上一代的核心瓶颈。理解这条演进脉络，才能在实际项目中做出正确的技术选型。

参考

Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks — RAG 开山之作，首次系统性提出 Naive RAG、Advanced RAG、Modular RAG 三种范式
A Survey on Retrieval-Augmented Text Generation — 统一了 RAG 技术框架，标准化了领域术语

引言​

目录​

RAG 1.0：Naive RAG​

2.1 工作流程​

2.2 三大瓶颈​

RAG 2.0：Advanced RAG​

3.1 检索前：查询改写与假设答案法​

3.2 检索后：重排序与混合检索​

3.3 效果与新瓶颈​

RAG 3.0：Modular RAG​

4.1 核心模块​

4.2 灵活检索策略​

Graph RAG：知识图谱的结构化补充​

一个典型场景​

Graph RAG 的做法​

定位​

RAG 4.0：Agentic RAG​

工作方式​

选型指南：不同场景该用哪一代？​

总结​

参考​

引言

目录