你是否为大语言模型建立了专属基准测试？

我将大语言模型（）用于许多不同的事情。它们经常是我搜索引擎的替代品，我用它们进行头脑风暴，审阅文档和分析科学研究，偶尔也会用于一些编码和网页开发（我曾有C#、R、Python和C的背景，但已经离开这个领域很长时间了；我现在是一名心理学家）。

最近我一直在开发自己的“基准测试”。我试图评估以下几个维度：

逐步推理、因果解释链；它能否进行逻辑分步推理？
数学和符号推理；它在数学方面的表现如何？
指令遵循、约束遵守；它是否严格遵守我的指令，还是松散地使用甚至凌驾于我的指令之上？当我设置约束时，它是否遵守？
歧义和澄清；它如何回应没有直接答案的问题？它如何处理细微之处和微妙之处？
解释与描述；当我询问某事物如何运作时，它在解释机制方面，是否能超越单纯的描述？
在线搜索和信息评估；它在回答我的在线搜索查询方面的表现如何，它找到的信息质量如何，以及它是否能批判性地反思信息和来源？

我仍在完善这个基准，它甚至不是很严肃，更多的是我自娱自乐的东西，但看到不同模型之间的比较，以及AI公司提供的大型模型与本地运行的小型模型之间差异可能有多小，这很有趣。

令我惊讶的是，在我制定的约15个问题中，按照我的标准，GPT-OSS:20b的表现常常优于OpenAI和Mistral的模型（这是我目前主要测试的模型）。我只有24GB的集成内存（Mac M4 Pro），所以无法运行更大的本地模型。我注意到GLM-4.7-REAP-23b-a3b的表现远不如QWEN-3-VL-8b。GLM经常陷入循环。我很高兴未来能更深入地进行评估和比较。

你是否有针对不同情况使用的特定基准测试？

你是否为大语言模型建立了专属基准测试？

摘要

正文

标签