专题：llm-benchmark

按该标签聚合的大模型资讯列表（自动分类与标签提取）。共 3 篇文章。

Anthropic Claude Cowork 与 OpenClaw 对比：AI模型新动态

媒体Latent Space2026/03/18 12:598760

• Claude Cowork即将支持远程控制

• GPT-5.4 mini/nano性能提升且资源优化

Anthropic发布Claude Cowork，OpenAI推出GPT-5.4 mini/nano，Qwen3.5-9B在文档AI基准测试中表现突出，Mistral Small 4具备高效架构和多模态能力。文章涵盖模型性能、开源工具、技术选择及行业趋势。

AI模型协作型AI 开源项目自然语言处理 AI基础设施

你的 LLM 基准测试可能衡量的是词汇回声，而非推理能力 — 关键词评分器受系统提示词重叠影响

原文

社区Reddit r/LocalLLaMA2026/02/10 12:5040

一项研究揭示，基于关键词的 LLM 评分可能衡量的是模型对提示词的词汇回声，而非推理能力。当系统提示词与评分器词汇重叠时，模型会因模仿提示词而获高分，而非因推理更优。研究通过三种评分方法对相同数据测试，结果大相径庭，尤其在更强模型上，这种混淆效应更甚，导致误导性评估。因此，进行基于关键词的 LLM 评估时，需警惕提示词与评分器间的词汇重叠，以避免得出错误结…

LLM评估 LLM 基准测试关键词评分系统提示词汇回声

你是否为大语言模型建立了专属基准测试？

原文

社区Reddit r/LocalLLaMA2026/02/08 20:5340

一位用户分享了其为大语言模型（LLM）构建的个人基准测试，旨在评估模型在逐步推理、数学、指令遵循、歧义处理、解释能力及在线搜索等多个维度的表现。测试结果令人意外：在约15个问题中，GPT-OSS:20b在用户标准下常优于OpenAI和Mistral模型。同时，GLM-4.7-REAP-23b-a3b表现远逊于QWEN-3-VL-8b。该非正式测试揭示了大型…

LLM 基准测试模型评估本地大模型 GPT-OSS模型通义千问