专题：system-prompt

你的 LLM 基准测试可能衡量的是词汇回声，而非推理能力 — 关键词评分器受系统提示词重叠影响

社区Reddit r/LocalLLaMA2026/02/10 12:5040

一项研究揭示，基于关键词的 LLM 评分可能衡量的是模型对提示词的词汇回声，而非推理能力。当系统提示词与评分器词汇重叠时，模型会因模仿提示词而获高分，而非因推理更优。研究通过三种评分方法对相同数据测试，结果大相径庭，尤其在更强模型上，这种混淆效应更甚，导致误导性评估。因此，进行基于关键词的 LLM 评估时，需警惕提示词与评分器间的词汇重叠，以避免得出错误结…

LLM评估 LLM 基准测试关键词评分系统提示词汇回声