在使用大语言模型（LLM）时存在诸多挑战，例如领域知识鸿沟、事实性问题和幻觉（hallucination）。检索增强生成（Retrieval Augmented Generation, RAG）通过利用数据库等外部知识来增强 LLM，为缓解部分此类问题提供了一种解决方案。RAG 在知识密集型场景或需要持续更新知识的特定领域应用中尤为有用。相较于其他方法，RAG 的一个关键优势在于，对于特定任务的应用，无需对 LLM 本身进行重新训练。最近，RAG 因其在对话式智能体中的应用而广受欢迎。

RAG介绍

本摘要重点提炼了近期综述论文《大语言模型的检索增强生成：综述》（Gao 等人, 2023）的主要发现和实践见解。我们特别聚焦于现有的方法、先进的 RAG 技术、评估方式、应用领域以及构成 RAG 系统（包括检索、生成和增强技术）各组成部分的相关技术。

检索增强生成（RAG）可定义为：

RAG接收输入内容，并根据给定数据源（如维基百科）检索出一组相关/支撑性文档。这些文档将与原始输入提示拼接为上下文，共同输入文本生成器以产生最终输出。这种机制使RAG能够适应事实随时间演变的场景。由于大语言模型（LLM）的参数化知识是静态的，该特性尤为重要。RAG使语言模型无需重新训练即可绕过知识更新障碍，通过检索式生成获取最新信息，从而产生可靠输出。

简而言之，RAG中检索到的证据可有效提升LLM响应的准确性、可控性和相关性。正因如此，在处理高度动态环境中的问题时，RAG能够减少幻觉或性能问题。

尽管RAG技术也涉及预训练方法的优化，但当前主流方案已转向结合RAG与强大微调模型（如ChatGPT、Mixtral）的优势。下图展示了RAG相关研究的演进历程：

RAG典型的流程如下：

各步骤/组件可解释如下：

输入

：大语言模型（LLM）系统需回应的问题称为输入。若不使用RAG，则直接调用LLM回答问题。

索引构建

：若采用RAG，需对关联文档进行分块处理，生成分块嵌入向量，并在向量数据库中建立索引。推理时，查询语句将以相同方式嵌入向量化。

检索

：通过比对待查询向量与索引向量，获取相关文档（亦称"支撑性文档"）。

生成：相关文档将与原始输入提示组合为新增上下文。整合后的文本与提示输入模型生成响应，最终作为系统输出呈现给用户。

在所示案例中，直接使用模型会因缺乏实时事件知识而应答失败；而采用RAG时，系统能提取模型回答问题所需的实时信息，实现精准响应。

RAG技术范式的演进

近年来，RAG系统已从原始RAG（Naive RAG）演进至高级RAG（Advanced RAG）与模块化RAG（Modular RAG）。此进化历程旨在突破早期版本在性能、成本及效率方面的瓶颈。

原始RAG范式

原始RAG遵循前文所述的索引、检索、生成传统流程：用户输入查询相关文档，将文档与提示词组合后输入模型生成最终响应。若涉及多轮对话应用，可将对话历史整合至提示词中。

该范式存在显著缺陷：

精度不足：检索分块错位（misaligned retrieved chunks）召回率低：未能获取全部相关分块信息滞后：可能向LLM传递过时信息（这恰是RAG系统本应解决的核心问题）

上述缺陷进而引发幻觉问题及低质、失准的响应。

实施增强时还面临额外挑战：

信息冗余与内容重复使用多检索段落时需解决排序优先级与风格/语调协调问题关键挑战在于确保生成任务不过度依赖增强信息，否则模型将机械复述检索内容

高级RAG范式高级RAG旨在解决原始RAG的固有缺陷，其核心是通过预检索优化、检索过程强化与后处理增强三重机制提升检索质量：

预检索优化聚焦数据索引增强，通过五阶段提升索引质量：

数据粒度精细化索引结构优化元数据注入对齐优化混合检索

检索强化优化嵌入模型直接影响上下文分块质量，具体策略包括：

微调嵌入模型提升检索相关性采用动态嵌入技术（如OpenAI的embedding-ada-02模型）强化上下文理解

后处理增强突破上下文窗口限制并过滤噪声干扰，关键技术包括：

重排序机制：重新定位关键上下文至提示词边缘；重算查询与文本分块语义相似度提示词压缩：精简输入内容以聚焦核心信息

模块化RAG范式该范式通过可配置模块实现功能扩展：

基础组件：集成相似性检索搜索模块，在检索器中应用微调技术扩展模块：包含搜索/记忆/融合/路由/预测/任务适配器等，解决差异化问题架构特性：原始RAG与高级RAG均为其固定模块特例，模块化架构支持按需重组模块或调整流程

RAG流程优化技术

基于模块化架构的灵活性，涌现出关键优化技术

技术名称

实现原理

核心价值

混合搜索探索

融合关键词搜索与语义检索

适应多元查询类型与信息需求

递归检索与查询引擎

先检索小语义分块，再获取大分块丰富上下文

平衡效率与信息丰度

StepBack提示

引导LLM进行概念抽象，生成指导推理的原理框架

在RAG中实现更可靠的响应根基

子查询策略

采用树状查询或分块序列查询（如LlamaIndex子问题引擎分解多源查询）

适配复杂场景需求

假设文档嵌入(HyDE)

生成查询的假设答案→嵌入向量→检索相似文档（替代直接查询检索）

突破原始查询表述局限

RAG框架核心组件演进本节系统阐释RAG三大核心组件——检索、生成与增强——的关键技术发展脉络。

检索组件优化

检索组件负责从检索器中获取高相关度上下文，其强化路径包括：

1. 语义表征增强直接优化驱动检索器的语义表征能力：

分块策略优化依据内容特性与响应需求选择分块方案，需考量：模型差异：Sentence Transformers擅单句处理，text-embedding-ada-002在256/512令牌块表现更优用户问题长度、应用场景及令牌限制通常需实验多分块策略以实现检索优化嵌入模型微调专业领域需微调嵌入模型避免语义误解，路径包括：宽领域知识微调（如域知识微调）特定下游任务微调典型案例：BAAI开发的BGE-large-EN模型

2. 查询-文档语义对齐解决用户查询语义缺失或表述模糊问题：

查询重写技术采用Query2Doc、ITER-RETGEN、HyDE等方法重构查询语义嵌入表示转换优化查询嵌入表示，对齐任务潜在语义空间

3. 检索器-LLM协同优化使检索输出匹配LLM偏好：

基于LLM反馈的检索器微调应用AAR、REPLUG、UPRISE等技术适配器集成通过PRCA、RECOMP、PKG等外部适配器实现对齐

生成组件优化

生成器负责将检索信息转化为连贯文本输出，关键优化方向：

冻结LLM的后检索处理

信息压缩：消除噪声/突破上下文限制/提升生成质量结果重排序：按相关性优先级重排文档

面向RAG的LLM微调优化生成器确保文本自然度及检索文档的高效利用

增强组件机制

增强组件聚焦检索段落与生成任务的有效融合，其技术架构包含：

增强流程阶段增强数据类型核心组件分类体系（下文展开）

增强技术应用阶段

检索增强可应用于三大技术阶段：

预训练阶段：如RETRO系统通过构建外部知识编码器实现大规模预训练增强微调阶段：结合RAG优化系统效能推理阶段：应用多技术融合检索内容，满足特定任务需求并优化RAG流程

增强数据源分类

RAG模型效能关键取决于数据源选择，主要分为三类：

非结构化数据（原始文本/图像等）结构化数据（数据库/知识图谱等）LLM生成数据（模型合成内容）

增强流程进阶机制

针对多步推理等复杂场景，单次检索不足时需采用：

增强机制

运作原理

典型应用场景

代表技术

迭代检索

执行多轮检索循环深化信息关联

深度信息挖掘

RETRO, GAR-meets-RAG

递归检索

将前次检索输出作为下次检索输入，实现信息层级深化

学术研究/法律案例分析

IRCoT, Tree of Clarifications

自适应检索

动态判定最佳检索时机与内容

实时需求响应

FLARE, Self-RAG

附图说明下图全景展示RAG研究的增强维度体系，涵盖：

增强阶段（预训练/微调/推理）数据源类型（非结构化/结构化/LLM生成）流程机制（迭代/递归/自适应）

关键技术传承性验证

阶段延续性"预训练阶段"呼应前文RETRO案例，"推理阶段"衔接"后检索处理"技术数据源关联"非结构化数据"直指原始文档库，"LLM生成数据"关联假设文档嵌入(HyDE)技术机制升级路径迭代检索 → 解决原始RAG"召回率低"缺陷递归检索 → 突破"单次检索深度不足"限制自适应检索 → 响应"动态环境"核心诉求

复杂机制可视化策略

三维度表格：将"机制-原理-场景-技术"四要素矩阵化呈现场景具象化：如"法律案例分析"明确递归检索价值技术溯源：代表技术标注英文原名（如Self-RAG），便于学术追踪

RAG与微调的技术定位辨析

当前学界对RAG与微调的适用场景存在开放讨论。研究表明：

RAG核心价值：整合新知识（尤其应对快速演进的知识体系）微调核心价值：通过优化内部知识、输出格式及复杂指令遵循能力，提升模型性能与效率

二者并非互斥，可在迭代过程中形成互补：

针对知识密集型可扩展应用，结合方案能同时满足：

实时知识获取需求（RAG优势）

定制化响应格式/风格/语调要求（微调优势）

提示词工程可进一步激活模型原生能力，优化最终输出。下图对比展示RAG与其他模型优化方法的特性差异：

逻辑衔接强化设计

对比结构显性化：破折号分隔RAG与微调的差异化价值三角符号引导的段落突出互补场景特征技术传承性体现："定制化响应格式"呼应前文"风格/语调协调"需求"实时知识获取"直指原始RAG解决"信息滞后"的初心多维能力整合

：

末句提示词工程（Prompt Engineering）的补充，构建完整优化体系：

RAG与微调模型特性对比下表摘自综述论文，系统对比两类技术的核心特征：

特性维度

检索增强生成 (RAG)

微调模型 (Fine-tuned Models)

知识更新能力

实时整合外部动态知识

依赖训练数据，更新需重新训练

领域适应性

通过检索库快速适配新领域

需领域特定数据重新训练

事实准确性

基于可验证外部证据，减少幻觉

受限于训练数据质量与时效性

实施成本

无需修改模型参数，部署灵活

需计算资源与标注数据实施再训练

响应风格控制

依赖提示工程与检索内容

可通过训练数据精准定制响应风格

复杂推理能力

需结合迭代检索/子查询等增强技术

内在学习复杂模式，指令遵循能力更强

基础设施依赖

需构建检索系统与知识库

仅需预训练模型基础

典型应用场景

实时信息查询、开放域问答、时效敏感任务

封闭域任务、风格化输出、复杂指令执行

RAG评估框架

与传统大语言模型（LLM）性能评估类似，RAG模型需通过系统化评估实现跨场景性能优化。传统评估依赖下游任务指标（如F1值、EM值），RaLLe框架是知识密集型任务中评估检索增强大语言模型的典型范例。

评估双核心目标

评估维度

评估重点

关键指标

检索质量

上下文相关性

NDCG（归一化折损累积增益）、命中率（Hit Rate）

生成质量

内容可靠性及关联性

未标注内容：相关性/有害性

标注内容：准确率

评估方法涵盖人工评估与自动评估两类范式。

三维质量评分体系

上下文关联度衡量检索上下文的精确性与特异性示例指标：检索段落与查询的语义匹配度答案忠实度检验答案对检索内容的忠实程度示例指标：生成声明与证据文档的可验证一致性答案相关度评估答案与原始问题的关联强度示例指标：答案对问题核心诉求的覆盖完整性

四项能力评估维度

能力类型

评估目标

技术价值定位

噪声鲁棒性

抗干扰信息能力

保障高噪声环境下的稳定性

负例拒斥能力

识别无关/错误文档能力

降低幻觉风险

信息整合能力

多源异构数据融合效能

支撑复杂推理任务

反事实鲁棒性

应对矛盾/虚假证据的稳健性

提升系统可靠性

评估指标体系全景下表系统总结RAG系统的多维度评估指标（详见下表）：

RAG的挑战与未来方向

本文系统阐述了RAG在检索、增强、生成维度的研究进展。基于Gao等人（2023）的研判，当前面临八大核心挑战：

挑战领域

核心问题描述

技术影响维度

上下文长度

LLM上下文窗口持续扩展，需重构RAG机制确保高相关度关键信息的精准捕获

架构适应性

鲁棒性

应对反事实与对抗性信息的检测及防御机制亟待完善

系统可靠性

混合方案优化

需建立RAG与微调模型的最优协同范式

技术融合效率

LLM能力扩展

增强LLM在RAG系统中的功能边界（如自主优化检索策略）

系统智能化

规模扩展规律

LLM规模扩展定律在RAG系统的应用机理尚未明确

算力成本控制

生产级RAG系统

需在性能、能效、数据安全、隐私保护等工程维度实现卓越

工业落地可行性

多模态RAG

现有研究集中于文本任务，亟需扩展至图像/音频/视频/代码等多模态领域

应用场景边界

评估体系进化

需开发精细化评估工具，量化：

- 上下文关联度

- 创造性

- 内容多样性

- 事实准确性

同时加强可解释性研究

技术迭

注：本摘重点提炼了近期综述论文《大语言模型的检索增强生成：综述》（Gao 等人, 2023）的主要发现和实践见解

一	二	三	四	五	六	日
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31

HQY

要和谐，要有爱~

第一集：大语言模型（LLM）的检索增强生成（RAG）介绍

hqy 发表于2025-06-30 01:31:01 浏览14 评论0百度已收录