社区Reddit r/LocalLLaMA2026/02/10 12:5040
一项研究揭示,基于关键词的 LLM 评分可能衡量的是模型对提示词的词汇回声,而非推理能力。当系统提示词与评分器词汇重叠时,模型会因模仿提示词而获高分,而非因推理更优。研究通过三种评分方法对相同数据测试,结果大相径庭,尤其在更强模型上,这种混淆效应更甚,导致误导性评估。因此,进行基于关键词的 LLM 评估时,需警惕提示词与评分器间的词汇重叠,以避免得出错误结…
按该标签聚合的大模型资讯列表(自动分类与标签提取)。共 1 篇文章。