专题：benchmark

GroundedPlanBench 是面向机器人操作的空间接地长时程任务规划基准，评估模型在同一推理阶段同时生成动作与位置的能力。基于该基准，V2GP 框架通过将演示视频转化为带空间坐标的训练数据，实现规划与空间推理的端到端联合学习。实验表明，空间接地显著提升任务成功率和定位精度，相关代码与数据已开源。

机器人规划空间接地基准测试视频到空间规划机器人技术

SQLite标签实现性能基准：五种策略实测对比

原文

官方Simon Willison2026/03/20 10:572940

• 比较了SQLite中五种标签实现策略的性能

• 多对多表结构表现最优，FTS5次之

该研究通过实证基准测试，对比了SQLite中实现标签功能的五种技术方案。结果显示，传统多对多表结构性能最佳，FTS5次之，LIKE查询表现意外良好，而JSON数组方案效率最低。该实验为开发者在构建标签系统时提供了可量化的性能依据，尤其适用于嵌入式应用与轻量级后端场景，兼具实用价值与工程指导意义。

SQLite 本地数据库标签系统基准测试 FTS5 json_each函数

AI智能体实践评估：基准测试、框架分析与经验总结

原文

媒体InfoQ 中文2026/03/18 20:005820

• 评估主流智能体框架优劣

• 展示多场景应用效果

本文对AI智能体技术进行全面评估，涵盖框架分析、基准测试和应用案例，为开发者提供实践指导与技术洞察。

AI代理框架基准测试应用落地开发实践

Cursor发布新评测基准CursorBench，挑战AI编程智能体效率

原文

媒体量子位2026/03/14 14:257820

• Cursor发布CursorBench评测基准

• 评测强调真实任务与执行效率

Cursor推出CursorBench评测基准，强调真实任务与高效执行，与SWE-Bench等传统基准形成对比。评测方法结合线下标准化测试与线上用户反馈，旨在更准确地反映AI编程智能体的实际表现。

AI编程评测基准 CursorBench 智能体评测代码质量效率评估

本地 LLM 在真实项目管理工具调用上的性能基准测试：单次请求 vs. 智能循环

原文

社区Reddit r/LocalLLaMA2026/02/23 22:484830

本文对 17 个本地 LLM 在真实项目管理工具调用任务上的性能进行了基准测试，对比了单次请求和智能循环两种执行模式。测试涵盖了不同难度的任务，并评估了模型在缺乏专门工具调用训练下的表现。结果表明，执行模式对模型性能影响巨大，为选择和优化本地 LLM 在实际应用中的工具调用能力提供了重要参考。

大语言模型本地大模型基准测试工具调用代理循环

Code2Bench：北航团队发布动态代码LLM评测新范式，破解数据污染与高分幻觉

原文

媒体机器之心2026/02/21 21:564930

北京航空航天大学团队在ICLR 2026上提出Code2Bench框架，旨在解决大语言模型（LLM）代码生成评测中数据污染和测试严谨性不足导致的“高分幻觉”问题。该框架基于“双重扩展”哲学，通过动态获取GitHub最新代码（防污染）和引入基于属性的测试（PBT）及100%分支覆盖率（高严谨性），构建了一个更动态、真实、严苛且具诊断性的评测范式。Code2B…

大语言模型代码生成基准测试数据污染 PBT

2026年2月19日AI技术动态：模型升级、基准测试与开源进展

原文

媒体AINews2026/02/21 13:445760

本文汇总了2026年2月19日AI领域的多项技术更新，涵盖模型性能提升、基准测试进展、AI代理开发及硬件创新。重点包括Gemini 3.1 Pro的推理优化、Claude Opus 4.6的评估、SWE-bench等基准测试的动态，以及多个开源项目和工具的最新动向。

Gemini 模型基准测试自主智能体开源项目硬件优化

DocParse Arena：自托管私有 VLM 文档解析基准与 ELO 排行榜

原文

社区Reddit r/LocalLLaMA2026/02/20 22:545730

DocParse Arena 是一款开源自托管平台，帮助企业在本地环境中对特定文档（如自定义发票、韩文名片、复杂简历）进行 VLM 盲测，并通过私有 ELO 排行榜评估模型优劣。它支持本地模型安全接入、专业后处理插件、并行 PDF 拆分加速，以及一键 Docker 部署，适合对隐私和定制基准有高要求的场景。

视觉语言模型光学字符识别基准测试 Docker 隐私保障

AutoBio：首个生物实验室 VLA 模型仿真与评测平台，揭示当前模型能力边界

原文

媒体机器之心2026/02/20 22:455820

香港大学与上海交大联合推出 AutoBio，一个专为生物实验室设计的 VLA 模型仿真与评测平台。该平台解决了现有研究中对专业科学场景（尤其是生物实验室）的 VLA 模型评估不足的问题。AutoBio 构建了高保真仿真环境，模拟了生物实验室特有的复杂操作和视觉挑战，并提供了一套标准化实验任务基准。评测结果揭示了当前主流 VLA 模型在处理高精度操作、细粒度…

视觉-语言-动作机器人技术模拟基准测试 AI科学应用

Google Gemini 3.1 Pro：12项基准测试全面超越Claude和GPT-4

原文

媒体InfoQ 中文2026/02/20 17:196820

Google DeepMind推出Gemini 3.1 Pro，12项基准测试中全面超越Claude和GPT-4。核心亮点包括多模态能力增强、推理效率提升和开发者支持全面升级。该模型在代码生成、数学推理和创意写作等场景表现优异，标志着AI大模型性能的新高度，为开发者提供更强大的工具支持。

Gemini 模型 AI模型基准测试多模态模型开发者工具

谷歌发布Gemini 3.1 Pro：推理与编码能力提升显著

原文

媒体AINews2026/02/19 13:447850

• 推理性能提升77.1%

• 编码能力达80.6%

谷歌发布Gemini 3.1 Pro，显著提升推理与编码能力，通过ARC-AGI 2和SWE-Bench测试验证。独立机构认可其性能与成本效益，尽管存在部分质疑，但整体获得业界高度评价。

Gemini 模型大语言模型基准测试 API接口 Vertex AI

多AI模型更新与技术进展：Claude Opus、Qwen 3.5、GLM-5及Gemini 3.1 Pro

原文

媒体AINews2026/02/18 13:447830

• Claude Opus/Sonnet 4.6智能指数提升

• Qwen 3.5开源并优化推理效率

多款AI模型更新，包括Claude Opus/Sonnet 4.6、Qwen 3.5、GLM-5及Gemini 3.1 Pro。重点在于智能指数提升、推理效率优化、开源模型权重及社区表现。技术报告和讨论揭示了模型在自主性、训练成本和性能上的进展。

大语言模型自主智能体基准测试检索增强生成推理速度

OpenAI 与 Paradigm 联手发布 EVMbench：AI 代理智能合约漏洞评估基准

原文

官方OpenAI Blog2026/02/18 08:005730

OpenAI 与 Paradigm 联合发布 EVMbench，提供针对 AI 代理的智能合约漏洞检测、修复和利用能力的统一基准。工具收录 30+ 高危漏洞，支持多维度评分并开放 Docker 与 Python SDK，首批评测覆盖主流大模型，帮助安全团队快速评估 AI 在合约安全中的实际表现。

以太坊虚拟机智能合约安全 AI代理基准测试大语言模型

socOCRbench：专为社会科学文档设计的OCR基准测试工具

原文

社区Reddit r/LocalLLaMA2026/02/16 09:515730

socOCRbench 是一个专为社会科学文档设计的OCR基准测试工具，旨在解决现有基准测试难以区分模型性能的问题。它聚焦于复杂实际场景，为研究者和开发者提供更贴近现实的评估标准，核心亮点在于其领域针对性和实际应用导向。

光学字符识别基准测试社会科学模型评估 AI应用

MMDeepResearch‑Bench：面向多模态深度研究代理的可核验评测基准

原文

媒体机器之心2026/02/14 16:3740

MMDeepResearch‑Bench（MMDR‑Bench）是由俄亥俄州立大学、Amazon Science 等联合发布的多模态深度研究代理评测基准。它提供 140 份覆盖 19 个领域的图像‑文本任务，要求模型在检索、读图、报告撰写全链路上实现证据可追溯、断言可对齐。评测框架包括 FLAE（长文质量）、TRACE（Claim‑URL 与视觉证据核验）…

多模态模型深度研究代理基准测试证据核验评估指标

WFGY 3.0：16 种 RAG 失效模式复盘 + 131 题高约束张力基准，助力本地 LLM 调试与评估

原文

社区Reddit r/LocalLLaMA2026/02/12 21:5540

WFGY 3.0 是面向本地大语言模型的调试与基准工具。它首先回顾了 WFGY 2.0 中的 16 种 RAG/基础设施失效模式，并通过“语义防火墙”在 Prompt 层实现自检，无需改动底层系统。随后发布的 131 题张力基准包（Q001‑Q131）提供高约束、含数学结构的长链推理任务，并配套 v0.1 测试协议，帮助用户给模型打 0‑3 张力分数并标记…

LLM 调试检索增强生成语义防火墙基准测试本地大模型

开源文档智能框架 Kreuzberg 发布 4.3.0 版并公布对比基准，性能领先 9 倍

原文

社区Reddit r/LocalLLaMA2026/02/12 15:4330

Kreuzberg 开源文档智能框架发布 4.3.0 版本并推出全新对比基准。新版本加入 PaddleOCR Rust 后端、文档结构抽取以及原生 Word97 支持，显著提升中文 OCR、层级解析和遗留文档处理能力。基准测试表明其在速度、内存和冷启动等方面平均快 9 倍，依赖更少，适用于 AI 文档处理流水线。项目代码、基准工具和数据均已开源，欢迎社区贡…

文档智能光学字符识别 Rust语言向量嵌入基准测试

Zhipu AI 发布 GLM-5：7440 亿参数开源大语言模型性能登顶

原文

媒体AINews2026/02/11 13:447840

Zhipu AI 推出 GLM-5，参数量达 7440 亿，集成 DeepSeek Sparse Attention 技术，性能在多个基准测试中领先，尤其适合办公场景，但受限于计算资源。

大语言模型稀疏注意力上下文长度开源环境基准测试