RAG系统的核心指标

为什么要关注RAG的核心指标？

在构建RAG（检索增强生成）系统时，我们最关心的问题是：这个系统到底好不好？好在哪里？不好在哪里？这就需要一套科学的评估标准。本文将从四个维度解析RAG系统的核心指标。

定义：企业知识库中真正相关的文本片段，被成功检索出来的比例。

公式：召回率 = 检索到的相关片段 ÷ 全部相关片段

解读：

典型场景：用户询问“今年的财报数据”，如果系统只检索到1份相关财报，而实际有3份，那么召回率就是33%。

定义：在所有被检索出来的片段中，真正有用的内容占比。

公式：精确率 = 检索到的相关片段 ÷ 所有检索出来的片段

对比理解：

精确率高 → 无效噪声少
精确率低 → 会混入大量无关文本，干扰大模型判断

前面两个指标评估的是检索阶段，而回复准确率评估的是生成阶段——大模型最终输出的答案质量。它包含以下标准：

影响的因素：检索内容质量，提示词约束，大模型能力

（注：回复准确率是RAG系统最核心的业务价值指标之一，它直接决定了用户对系统好用的感受。）

从用户提问到前端展示完整答案的时间，是一次完整交互的总耗时。这个时间可以拆分为四个环节：

理想标准：

（注：响应速度过慢会直接影响用户体验，即使答案质量再高，用户也可能因为等待而放弃使用。）

问题：如果你的RAG系统在测试中召回率是95%，但精确率只有30%，你会优先优化哪个指标？为什么？

答案：应该优先优化精确率。因为精确率只有30%意味着检索到的结果中70%都是无关内容，这些噪声会严重干扰大模型的判断，容易导致答非所问甚至回答错误。虽然信息找得全（召回率高），但大量无用信息混入会让生成阶段变得不可控。通常建议先确保精确率达标（比如达到70%以上），再进一步提升召回率。

有几个主流的开源库可以直接评估RAG系统：

RAGAS（最推荐）
- 专为RAG系统设计，支持评估召回率、精确率、忠实度、答案相关性等
- 只需提供：问题、检索到的上下文、生成的答案、真实答案
- 安装：pip install ragas
LlamaIndex 内置评估模块
- 提供 faithfulness、relevancy、correctness 等评估器
- 适合已在用 LlamaIndex 构建 RAG 的项目
LangSmith（部分开源）
- LangChain 的评估工具，支持自定义指标和自动化测试
- 有开源版和云版
DeepEval
- 支持多种 LLM 评估，包括 RAG 场景的忠实度、幻觉检测等
- 安装：pip install deepeval

使用建议：如果是刚起步，直接从 RAGAS 入手最方便，它提供了完整的指标计算和可视化。如果需要更灵活的定制，可以选 DeepEval。