新闻动态
你的位置:3分时时彩计划在线 > 新闻动态 > 【蓝因子教育】检索组件的评测指标
【蓝因子教育】检索组件的评测指标
2025-09-13 17:18    点击次数:197

在 RAG 系统中,检索组件的性能直接影响生成模型的效果。为了全面评估检索组件的表现,通常使用以下几种评测算法,上下文召回率(Context Recall)、上下文相关性(Context Relevance)。

1. 上下文召回率

上下文召回率用于衡量检索组件是否能够从知识库中召回与查询相关的所有关键信息。具体计算方式如下:

2. 上下文相关性

上下文相关性用于评估检索到的上下文中与查询语义匹配的句子比例。具体计算方式如下:

展开剩余44%

3. 评估调用示例

LazyLLM 提供了上述两种评估方法的调用接口,用户通过传入召回文档和预期文档得到这两个评估结果的具体数值:

根据几种评测集计算方法,我们使用 CMRC-2018 数据集在实战 1 提到的最基础 RAG 的检索组件召回文档上计算上述三种评测指标,得到如下图所示结果(表中 top 1,top 3,top 5 表示的是在召回的前 1, 3, 5 个文档上计算召回率和上下文相关性):

(使用不同节点组召回的结果对比:recall ↑ /context relevance ↑)

由上表可知,当前 RAG 系统只是简单实现了整个流程,而效果较为一般。其中召回率较低说明系统无法检索到有用的文段做答案;上下文相关性低则说明系统召回的文段包含的冗余信息过多,随着 top k 数值的增高,冗余信息越多,对大模型回答问题的增益越少。

发布于:湖南省