RAG 演进:从 1.0 到 4.0
引言
如果你对 RAG 的认知还停留在向量检索阶段,那你的 RAG 架构可能已经落后了整整两个世代。
RAG(Retrieval-Augmented Generation)的演进可以划分为四个阶段:Naive RAG(1.0)、Advanced RAG(2.0)、Modular RAG(3.0)、Agentic RAG(4.0)。每一阶段都是对上一阶段核心瓶颈的突破。下面通过一个智能客服的迭代故事,讲清楚这四个版本的本质差异。
本文基于两篇 RAG 领域教科书级别的论文: 一篇是 RAG 的开山之作,首次系统性提出了三种检索范式;另一篇统一了 RAG 的技术框架,标准化了领域术语。
目录
- 引言 - RAG 技术演进全景
- RAG 1.0:Naive RAG - 从零到一的三段式架构
- 2.1 工作流程
- 2.2 三大瓶颈
- RAG 2.0:Advanced RAG - 检索前后的精细化优化
- 3.1 检索前:查询改写与假设答案法
- 3.2 检索后:重排序与混合检索
- 3.3 效果与新瓶颈
- RAG 3.0:Modular RAG - 模块化与灵活检索
- 4.1 核心模块
- 4.2 灵活检索策略
- Graph RAG:知识图谱的结构化补充
- RAG 4.0:Agentic RAG - 主动规划与自我反思
- 选型指南 - 不同场景该用哪一代?
- 总结 - 四代 RAG 全景对比
RAG 1.0:Naive RAG
时间回到 2020 年,你上线了第一代智能客服,使用了最基础的 RAG 技术——一个典型的三段式架构。
2.1 工作流程
整个流程分三步:
- 建立索引:把所有 QA 文档、商品说明、售后政策进行切块,转化为向量存进数据库。
- 检索:用户提问「我买的手机支持以旧换新吗?」,系统把问题向量化,去数据库里找到最相关的五段内容。
- 生成:把检索到的五段内容和用户的问题一起给到大模型,让它回答。
2.2 三大瓶颈
这套架构能跑起来,但很快你发现了三个致命问题:
| 瓶颈 | 具体表现 | 根因 |
|---|---|---|
| 检索不精准 | 用户问「换新」,系统检索到「回收」政策 | 向量检索基于相似度,「换新」和「回收」在向量空间里接近,但语义完全不同 |
| 信息不完整 | 以旧换新政策分散在三份文档里,一次只找到一份 | 单次检索无法覆盖跨文档的完整信息 |
| 信息矛盾 | 不同文档写的适用机型不一致,回答前后矛盾 | 没有去重和时效性校验机制 |
核心问题:检索前问题不够清晰,检索后结果不够精准。 这两个端点的缺陷,直接催生了第二代的进化方向。
RAG 2.0:Advanced RAG
针对 1.0 的瓶颈,系统进化为第二代——在检索前和检索后分别做了精细化优化。
3.1 检索前:查询改写与假设答案法
用户的提问往往很随意——「能换吗?」「支持吗?」「可以吗?」同一个问题问法五花八门,还有各种歧义。Advanced RAG 在检索前增加了两个关键步骤:
查询改写(Query Rewriting):先让 AI 对用户的问题进行扩写、澄清,生成多个表述,再用改写后的问题去检索,覆盖面会扩大很多。
假设答案法(HyDE):先让 AI 根据问题生成一段假设性的答案——
「本平台支持以旧换新服务,符合条件的机型包括……」
然后用这段假设的答案再去检索。因为答案的语义往往比问题更接近真实的文档,检索效果往往更好。
3.2 检索后:重排序与混合检索
找到相关文档只是第一步,怎么把最关键的内容筛选出来?
图中展示了 Advanced RAG 的完整检索链路。两个核心优化:
- 重排序(Reranking):初步检索可能找到 50 个候选段落,但给到 AI 的只有 Top5。用一个专门的重排序模型对候选做精细化打分,把最关键的排到最前面。
- 混合检索(Hybrid Search):向量检索擅长语义理解,但对专有名词不敏感。比如 iPhone 14 Pro Max 和 iPhone 14 Pro 在向量空间里很接近,但用户问 Pro Max 的价格,你给 Pro 的价格就是错的。把向量检索和关键词检索结合起来,向量负责语义理解,关键词负责精准匹配专有名词,准确率大幅提升。
3.3 效果与新瓶颈
经过这轮优化,智能客服的准确率从 60% 提升到 80%,用户投诉明显减少。
但新的问题来了。 用户问:
「我在北京想给上海的朋友买个手机,能直接发到上海吗?如果他不喜欢能退吗?退货的运费谁出?」
这是一个多步骤、跨领域的复杂问题,涉及配送政策、退货政策、运费政策。第二代 RAG 的固定流程一次检索该找什么?找配送、找退货还是找运费?固定流程无法拆解复杂问题。
RAG 3.0:Modular RAG
第三代 RAG 打破了固定流程,把 RAG 变成了一堆可以自由组合的功能模块。
4.1 核心模块
上图展示了 Modular RAG 的模块化架构。三个核心模块各司其职:
- 路由模块(Routing):根据问题类型智能决定查哪部分数据——配送问题查配送库,退货问题查退货库。
- 记忆模块(Memory):记住历史对话上下文,避免重复提问。
- 融合模块(Fusion):对多个来源的结果进行去重合并,避免重复或矛盾信息。
4.2 灵活检索策略
Modular RAG 的检索方式也变得更灵活,支持三种策略:
| 策略 | 工作方式 | 适用场景 |
|---|---|---|
| 迭代检索 | 检索→生成→再检索→再生成,交替进行 | 多步骤问题(如配送+退货+运费拆成三轮检索) |
| 分层检索 | 先检索目录,再检索内容 | 论文、著作等有层级结构的知识库 |
| 自适应检索 | 根据当前结果质量动态决定是否继续检索 | 不确定需要几轮检索的场景 |
第三代 RAG 让智能客服真正具备了应对复杂咨询的能力。 准确率提升到 85%,复杂问题的解决率翻倍。
Graph RAG:知识图谱的结构化补充
在讲第四代之前,需要单独介绍 Graph RAG。
一个典型场景
用户问:「我上个月买的那款你们跟某某品牌联名的手机,它的设计师之前还出过哪些作品?」
这个问题需要理解多层关系:商品→品牌→设计师→设计师的其他作品。传统的向量检索处理的是孤立的文本片段,不理解实体之间的关系。
Graph RAG 的做法
微软提出了一个革命性方案:用知识图谱重构 RAG。
从图中可以看出,Graph RAG 将实体和关系组织成一张网络:
- 构建阶段:不再只是把文档切块存向量,而是先提取实体以及实体之间的关系,把这些关系和实体连成一张网(知识图谱),再进行向量索引。
- 查询阶段:不再只是简单的向量匹配,而是在图谱上进行推理——从商品定位到品牌,再从品牌推理到设计师,再去推理设计师的所有作品。
定位
Graph RAG 不算是第三代的升级,而是补充了普通向量检索覆盖不到的「多跳推理」和「深度分析」场景。
实践中可以把传统 RAG 和 Graph RAG 结合:日常查询用 Modular RAG,需要深度分析关系时用 Graph RAG。不过 Graph RAG 的构图成本很高(是普通 RAG 的 10-20 倍),查询也比较慢,目前使用的公司不多。
RAG 4.0:Agentic RAG
Modular RAG 和 Graph RAG 分别从灵活性和结构性两个维度提升了 RAG 的能力,但它们还有一个共同的根本性限制——被动响应。
用户提问,系统响应,没有主动规划,没有自我反思,不会在发现答案不够好的时候主动补充检索,更不会把复杂任务拆解成多个执行计划。这个限制催生了第四代 Agentic RAG。
工作方式
以「我想买个手机送给妈妈,她不会用,你帮我推荐一下,顺便告诉我怎么教她用」为例:
从流程图中可以看到,Agentic RAG 的核心在于自主循环:
- 分析需求:理解用户意图,识别出需要推荐和教程两类信息。
- 制定计划:拆解搜索计划——先搜什么,再搜什么。
- 执行搜索:按计划逐步执行,同时配备工具箱,自主决定用哪个工具、什么时候调用。
- 自我评估:评估输出质量——内容好不好,符不符合要求?不满意就重新检索,直到满意为止。
选型指南:不同场景该用哪一代?
技术没有绝对的好坏,只有适不适合。 不要盲目追求最新一代,要结合实际场景做选择。
| 代际 | 准确率 | 成本 | 延迟 | 适用场景 |
|---|---|---|---|---|
| 1.0 Naive RAG | ~60% | 低 | 低 | 原型验证、简单 FAQ |
| 2.0 Advanced RAG | ~80% | 中 | 低 | 常规电商客服、文档问答(覆盖 80-90% 场景) |
| 3.0 Modular RAG | ~85% | 中高 | 中 | 多步骤复杂咨询、跨领域问题 |
| 4.0 Agentic RAG | 90%+ | 高 | 高 | 开放式研究、多轮深度分析 |
| Graph RAG | — | 很高(10-20x) | 高 | 多跳推理、实体关系分析 |
选型建议:
- 常规电商客服 → Advanced RAG 就够用,性价比最高
- 有复杂咨询需求 → 升级到 Modular RAG
- 需要多跳推理(如品牌→设计师→作品)→ 补充 Graph RAG
- 需要自主规划、开放式问题 → 上 Agentic RAG
关键决策因素:用户等待时间容忍度、问题复杂度、团队技术能力、预算。
总结
| 代际 | 核心突破 | 解决的问题 | 新增的问题 |
|---|---|---|---|
| 1.0 Naive RAG | 三段式架构(索引→检索→生成) | 让大模型能基于外部知识回答 | 检索不精准、信息不完整、信息矛盾 |
| 2.0 Advanced RAG | 检索前查询改写 + 检索后重排序 | 检索质量和结果筛选 | 无法处理多步骤复杂问题 |
| 3.0 Modular RAG | 模块化架构 + 灵活检索策略 | 复杂问题拆解与多源融合 | 被动响应,无主动规划 |
| Graph RAG | 知识图谱 + 实体关系推理 | 多跳推理与深度分析 | 构图成本高、查询慢 |
| 4.0 Agentic RAG | 主动规划 + 自我反思 + 工具调用 | 自主决策与质量闭环 | 成本高、延迟大 |
每一代 RAG 都是在解决上一代的核心瓶颈。理解这条演进脉络,才能在实际项目中做出正确的技术选型。
参考
- Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks — RAG 开山之作,首次系统性提出 Naive RAG、Advanced RAG、Modular RAG 三种范式
- A Survey on Retrieval-Augmented Text Generation — 统一了 RAG 技术框架,标准化了领域术语