专题:benchmark

按该标签聚合的大模型资讯列表(自动分类与标签提取)。27 篇文章。

官方Microsoft Research Blog2026/03/27 03:025820
基于AI2-THOR的3D模拟环境
动态视觉反馈调整计划

AsgardBench是微软开源的视觉交互式规划AI评估工具,基于AI2-THOR模拟环境测试代理在动态场景中的适应能力。通过有限视觉反馈机制,揭示AI在复杂任务中的性能瓶颈,推动视觉grounding与规划技术发展,适用于研究与开发场景。

官方Microsoft Research Blog2026/03/27 00:034840
提出评估动作+位置联合规划的 GroundedPlanBench 基准
V2GP 将演示视频转为空间接地训练数据,实现端到端学习

GroundedPlanBench 是面向机器人操作的空间接地长时程任务规划基准,评估模型在同一推理阶段同时生成动作与位置的能力。基于该基准,V2GP 框架通过将演示视频转化为带空间坐标的训练数据,实现规划与空间推理的端到端联合学习。实验表明,空间接地显著提升任务成功率和定位精度,相关代码与数据已开源。

官方Simon Willison2026/03/20 10:572940
比较了SQLite中五种标签实现策略的性能
多对多表结构表现最优,FTS5次之

该研究通过实证基准测试,对比了SQLite中实现标签功能的五种技术方案。结果显示,传统多对多表结构性能最佳,FTS5次之,LIKE查询表现意外良好,而JSON数组方案效率最低。该实验为开发者在构建标签系统时提供了可量化的性能依据,尤其适用于嵌入式应用与轻量级后端场景,兼具实用价值与工程指导意义。

媒体量子位2026/03/14 14:257820
Cursor发布CursorBench评测基准
评测强调真实任务与执行效率

Cursor推出CursorBench评测基准,强调真实任务与高效执行,与SWE-Bench等传统基准形成对比。评测方法结合线下标准化测试与线上用户反馈,旨在更准确地反映AI编程智能体的实际表现。

社区Reddit r/LocalLLaMA2026/02/23 22:484830

本文对 17 个本地 LLM 在真实项目管理工具调用任务上的性能进行了基准测试,对比了单次请求和智能循环两种执行模式。测试涵盖了不同难度的任务,并评估了模型在缺乏专门工具调用训练下的表现。结果表明,执行模式对模型性能影响巨大,为选择和优化本地 LLM 在实际应用中的工具调用能力提供了重要参考。

媒体机器之心2026/02/21 21:564930

北京航空航天大学团队在ICLR 2026上提出Code2Bench框架,旨在解决大语言模型(LLM)代码生成评测中数据污染和测试严谨性不足导致的“高分幻觉”问题。该框架基于“双重扩展”哲学,通过动态获取GitHub最新代码(防污染)和引入基于属性的测试(PBT)及100%分支覆盖率(高严谨性),构建了一个更动态、真实、严苛且具诊断性的评测范式。Code2B…

社区Reddit r/LocalLLaMA2026/02/20 22:545730

DocParse Arena 是一款开源自托管平台,帮助企业在本地环境中对特定文档(如自定义发票、韩文名片、复杂简历)进行 VLM 盲测,并通过私有 ELO 排行榜评估模型优劣。它支持本地模型安全接入、专业后处理插件、并行 PDF 拆分加速,以及一键 Docker 部署,适合对隐私和定制基准有高要求的场景。

媒体机器之心2026/02/20 22:455820

香港大学与上海交大联合推出 AutoBio,一个专为生物实验室设计的 VLA 模型仿真与评测平台。该平台解决了现有研究中对专业科学场景(尤其是生物实验室)的 VLA 模型评估不足的问题。AutoBio 构建了高保真仿真环境,模拟了生物实验室特有的复杂操作和视觉挑战,并提供了一套标准化实验任务基准。评测结果揭示了当前主流 VLA 模型在处理高精度操作、细粒度…

媒体InfoQ 中文2026/02/20 17:196820

Google DeepMind推出Gemini 3.1 Pro,12项基准测试中全面超越Claude和GPT-4。核心亮点包括多模态能力增强、推理效率提升和开发者支持全面升级。该模型在代码生成、数学推理和创意写作等场景表现优异,标志着AI大模型性能的新高度,为开发者提供更强大的工具支持。

媒体AINews2026/02/18 13:447830
Claude Opus/Sonnet 4.6智能指数提升
Qwen 3.5开源并优化推理效率

多款AI模型更新,包括Claude Opus/Sonnet 4.6、Qwen 3.5、GLM-5及Gemini 3.1 Pro。重点在于智能指数提升、推理效率优化、开源模型权重及社区表现。技术报告和讨论揭示了模型在自主性、训练成本和性能上的进展。

官方OpenAI Blog2026/02/18 08:005730

OpenAI 与 Paradigm 联合发布 EVMbench,提供针对 AI 代理的智能合约漏洞检测、修复和利用能力的统一基准。工具收录 30+ 高危漏洞,支持多维度评分并开放 Docker 与 Python SDK,首批评测覆盖主流大模型,帮助安全团队快速评估 AI 在合约安全中的实际表现。

媒体机器之心2026/02/14 16:3740

MMDeepResearch‑Bench(MMDR‑Bench)是由俄亥俄州立大学、Amazon Science 等联合发布的多模态深度研究代理评测基准。它提供 140 份覆盖 19 个领域的图像‑文本任务,要求模型在检索、读图、报告撰写全链路上实现证据可追溯、断言可对齐。评测框架包括 FLAE(长文质量)、TRACE(Claim‑URL 与视觉证据核验)…

社区Reddit r/LocalLLaMA2026/02/12 21:5540

WFGY 3.0 是面向本地大语言模型的调试与基准工具。它首先回顾了 WFGY 2.0 中的 16 种 RAG/基础设施失效模式,并通过“语义防火墙”在 Prompt 层实现自检,无需改动底层系统。随后发布的 131 题张力基准包(Q001‑Q131)提供高约束、含数学结构的长链推理任务,并配套 v0.1 测试协议,帮助用户给模型打 0‑3 张力分数并标记…

社区Reddit r/LocalLLaMA2026/02/12 15:4330

Kreuzberg 开源文档智能框架发布 4.3.0 版本并推出全新对比基准。新版本加入 PaddleOCR Rust 后端、文档结构抽取以及原生 Word97 支持,显著提升中文 OCR、层级解析和遗留文档处理能力。基准测试表明其在速度、内存和冷启动等方面平均快 9 倍,依赖更少,适用于 AI 文档处理流水线。项目代码、基准工具和数据均已开源,欢迎社区贡…