69.人工智能实战:RAG 召回评测平台怎么搭?从前期发现答非所问到 Recall@K、MRR 与 NDCG 指标落地

📅 2026/7/4 17:17:16 👁️ 阅读次数 📝 编程学习
69.人工智能实战:RAG 召回评测平台怎么搭?从前期发现答非所问到 Recall@K、MRR 与 NDCG 指标落地

人工智能实战:RAG 召回评测平台怎么搭?从前期发现答非所问到 Recall@K、MRR 与 NDCG 指标落地


一、问题场景:RAG 答错了,但不知道是检索错还是生成错

RAG 系统答错时,很多人第一反应是改 Prompt。

但真实情况经常是:

模型没有看到正确资料。

如果检索阶段没召回正确 chunk,生成阶段再强也没用。

我见过一个系统,用户问:

销售客户拜访二线城市住宿费多少?

模型回答:

350元

排查发现:

retrieved_docs 里根本没有 sales_policy

这不是生成问题,而是召回问题。

本文解决的问题是:

如何搭建 RAG 召回评测平台,使用 Recall@K、MRR、NDCG 等指标量化检索质量,避免盲目调 Prompt。

二、前期如何发现需要召回评测?