你是否为大语言模型建立了专属基准测试?
Reddit r/LocalLLaMA2026/02/08 20:53机翻/自动摘要/自动分类
4 阅读
摘要
一位用户分享了其为大语言模型(LLM)构建的个人基准测试,旨在评估模型在逐步推理、数学、指令遵循、歧义处理、解释能力及在线搜索等多个维度的表现。测试结果令人意外:在约15个问题中,GPT-OSS:20b在用户标准下常优于OpenAI和Mistral模型。同时,GLM-4.7-REAP-23b-a3b表现远逊于QWEN-3-VL-8b。该非正式测试揭示了大型商业模型与小型本地模型之间性能差异可能微乎其微,甚至本地模型表现更佳。
正文
我将大语言模型()用于许多不同的事情。它们经常是我搜索引擎的替代品,我用它们进行头脑风暴,审阅文档和分析科学研究,偶尔也会用于一些编码和网页开发(我曾有C#、R、Python和C的背景,但已经离开这个领域很长时间了;我现在是一名心理学家)。
最近我一直在开发自己的“基准测试”。我试图评估以下几个维度:
- 逐步推理、因果解释链;它能否进行逻辑分步推理?
- 数学和符号推理;它在数学方面的表现如何?
- 指令遵循、约束遵守;它是否严格遵守我的指令,还是松散地使用甚至凌驾于我的指令之上?当我设置约束时,它是否遵守?
- 歧义和澄清;它如何回应没有直接答案的问题?它如何处理细微之处和微妙之处?
- 解释与描述;当我询问某事物如何运作时,它在解释机制方面,是否能超越单纯的描述?
- 在线搜索和信息评估;它在回答我的在线搜索查询方面的表现如何,它找到的信息质量如何,以及它是否能批判性地反思信息和来源?
我仍在完善这个基准,它甚至不是很严肃,更多的是我自娱自乐的东西,但看到不同模型之间的比较,以及AI公司提供的大型模型与本地运行的小型模型之间差异可能有多小,这很有趣。
令我惊讶的是,在我制定的约15个问题中,按照我的标准,GPT-OSS:20b的表现常常优于OpenAI和Mistral的模型(这是我目前主要测试的模型)。我只有24GB的集成内存(Mac M4 Pro),所以无法运行更大的本地模型。我注意到GLM-4.7-REAP-23b-a3b的表现远不如QWEN-3-VL-8b。GLM经常陷入循环。我很高兴未来能更深入地进行评估和比较。
你是否有针对不同情况使用的特定基准测试?