首页/详情

你的 LLM 基准测试可能衡量的是词汇回声,而非推理能力 — 关键词评分器受系统提示词重叠影响

Reddit r/LocalLLaMA2026/02/10 12:50机翻/自动摘要/自动分类
4 阅读

摘要

一项研究揭示,基于关键词的 LLM 评分可能衡量的是模型对提示词的词汇回声,而非推理能力。当系统提示词与评分器词汇重叠时,模型会因模仿提示词而获高分,而非因推理更优。研究通过三种评分方法对相同数据测试,结果大相径庭,尤其在更强模型上,这种混淆效应更甚,导致误导性评估。因此,进行基于关键词的 LLM 评估时,需警惕提示词与评分器间的词汇重叠,以避免得出错误结论。

正文

在对不同的系统提示词进行基准测试时发现:基于关键词的 评分会系统性地受到系统提示词与评分器之间词汇重叠的影响。

具体情况: 如果你的系统提示词说“寻找缺失的部分”,而你的评分器检查“缺失”这个词,模型就会回声提示词中的词汇并获得高分——这不是因为它推理得更好,而是因为它模仿了提示词。一个引发“周二之后数据库写入量下降”(相同的观察,不同的词语)的不同提示词,在该关键词上会得零分。

情况有多糟: 我们通过三种独立的评分方法对相同的 20 对试验进行了测试:

| 方法 | 缺失检测结果 | |---|---| | v1 关键词评分 | 英文提示词胜出 18.4% | | v2 结构化评分 | 基本持平 (-0.7%) | | 盲审 作为评判者 | 替代提示词以 19-1 胜出 |

三种方法,三种不同的结论,数据却完全相同。

在更大的模型上情况更糟。 能力更强的模型会更忠实地遵循指令,更精确地模仿词汇,从而放大这种混淆。这会产生误导性的逆向扩展曲线——使得替代提示词在更好的模型上看起来表现更差,而实际上它们只是用不同的词语进行了更好的推理。

最糟糕的例子: 一个回复写道“佛蒙特州老师的 847 天连胜是你的北极星”——将一个看似无关的细节用作敏锐的战略证据。关键词评分器因其“提及干扰项”而给出最低分。而盲审评判者却将其评为最高分。

对本地 LLM 用户的实际启示: 如果你正在使用基于关键词的指标评估不同的系统提示词、提示模板或模型,请检查你的评分器词汇是否与某个提示词比其他提示词有更多重叠。如果存在重叠,你的比较结果可能只是假象。

这对于任何进行本地评估的人都很重要——如果你正在比较基础模型与模型,或者测试不同的系统提示词,基于关键词的评分可能会给你关于哪个模型实际更好的错误答案。

论文 + 所有代码(v1 混淆评分器,v2 修正评分器,基准测试套件):https://github.com/Palmerschallon/Dharma_Code

包含完整分析的博客文章:https://emberverse.ai/haiku-garden/research/vocab_priming_confound.html

标签