专题:llm-benchmark

按该标签聚合的大模型资讯列表(自动分类与标签提取)。3 篇文章。

社区Reddit r/LocalLLaMA2026/02/10 12:5040

一项研究揭示,基于关键词的 LLM 评分可能衡量的是模型对提示词的词汇回声,而非推理能力。当系统提示词与评分器词汇重叠时,模型会因模仿提示词而获高分,而非因推理更优。研究通过三种评分方法对相同数据测试,结果大相径庭,尤其在更强模型上,这种混淆效应更甚,导致误导性评估。因此,进行基于关键词的 LLM 评估时,需警惕提示词与评分器间的词汇重叠,以避免得出错误结…

社区Reddit r/LocalLLaMA2026/02/08 20:5340

一位用户分享了其为大语言模型(LLM)构建的个人基准测试,旨在评估模型在逐步推理、数学、指令遵循、歧义处理、解释能力及在线搜索等多个维度的表现。测试结果令人意外:在约15个问题中,GPT-OSS:20b在用户标准下常优于OpenAI和Mistral模型。同时,GLM-4.7-REAP-23b-a3b表现远逊于QWEN-3-VL-8b。该非正式测试揭示了大型…