你的 LLM 基准测试可能衡量的是词汇回声，而非推理能力 — 关键词评分器受系统提示词重叠影响

在对不同的系统提示词进行基准测试时发现：基于关键词的评分会系统性地受到系统提示词与评分器之间词汇重叠的影响。

具体情况： 如果你的系统提示词说“寻找缺失的部分”，而你的评分器检查“缺失”这个词，模型就会回声提示词中的词汇并获得高分——这不是因为它推理得更好，而是因为它模仿了提示词。一个引发“周二之后数据库写入量下降”（相同的观察，不同的词语）的不同提示词，在该关键词上会得零分。

情况有多糟： 我们通过三种独立的评分方法对相同的 20 对试验进行了测试：

| 方法 | 缺失检测结果 | |---|---| | v1 关键词评分 | 英文提示词胜出 18.4% | | v2 结构化评分 | 基本持平 (-0.7%) | | 盲审作为评判者 | 替代提示词以 19-1 胜出 |

三种方法，三种不同的结论，数据却完全相同。

在更大的模型上情况更糟。 能力更强的模型会更忠实地遵循指令，更精确地模仿词汇，从而放大这种混淆。这会产生误导性的逆向扩展曲线——使得替代提示词在更好的模型上看起来表现更差，而实际上它们只是用不同的词语进行了更好的推理。

最糟糕的例子： 一个回复写道“佛蒙特州老师的 847 天连胜是你的北极星”——将一个看似无关的细节用作敏锐的战略证据。关键词评分器因其“提及干扰项”而给出最低分。而盲审评判者却将其评为最高分。

对本地 LLM 用户的实际启示： 如果你正在使用基于关键词的指标评估不同的系统提示词、提示模板或模型，请检查你的评分器词汇是否与某个提示词比其他提示词有更多重叠。如果存在重叠，你的比较结果可能只是假象。

这对于任何进行本地评估的人都很重要——如果你正在比较基础模型与模型，或者测试不同的系统提示词，基于关键词的评分可能会给你关于哪个模型实际更好的错误答案。

论文 + 所有代码（v1 混淆评分器，v2 修正评分器，基准测试套件）：https://github.com/Palmerschallon/Dharma_Code

包含完整分析的博客文章：https://emberverse.ai/haiku-garden/research/vocab_priming_confound.html

摘要