欧盟叫停‘Chat Control’法案,保护用户隐私;AI用于整理家族历史,构建个人百科全书;ARC-AGI-3评估AI代理的智能水平。文章涵盖政策、AI应用与技术评估,具有较高的技术参考价值。
专题:benchmark
按该标签聚合的大模型资讯列表(自动分类与标签提取)。共 27 篇文章。
AsgardBench是微软开源的视觉交互式规划AI评估工具,基于AI2-THOR模拟环境测试代理在动态场景中的适应能力。通过有限视觉反馈机制,揭示AI在复杂任务中的性能瓶颈,推动视觉grounding与规划技术发展,适用于研究与开发场景。
GroundedPlanBench 是面向机器人操作的空间接地长时程任务规划基准,评估模型在同一推理阶段同时生成动作与位置的能力。基于该基准,V2GP 框架通过将演示视频转化为带空间坐标的训练数据,实现规划与空间推理的端到端联合学习。实验表明,空间接地显著提升任务成功率和定位精度,相关代码与数据已开源。
该研究通过实证基准测试,对比了SQLite中实现标签功能的五种技术方案。结果显示,传统多对多表结构性能最佳,FTS5次之,LIKE查询表现意外良好,而JSON数组方案效率最低。该实验为开发者在构建标签系统时提供了可量化的性能依据,尤其适用于嵌入式应用与轻量级后端场景,兼具实用价值与工程指导意义。
本文对AI智能体技术进行全面评估,涵盖框架分析、基准测试和应用案例,为开发者提供实践指导与技术洞察。
Cursor推出CursorBench评测基准,强调真实任务与高效执行,与SWE-Bench等传统基准形成对比。评测方法结合线下标准化测试与线上用户反馈,旨在更准确地反映AI编程智能体的实际表现。
本文对 17 个本地 LLM 在真实项目管理工具调用任务上的性能进行了基准测试,对比了单次请求和智能循环两种执行模式。测试涵盖了不同难度的任务,并评估了模型在缺乏专门工具调用训练下的表现。结果表明,执行模式对模型性能影响巨大,为选择和优化本地 LLM 在实际应用中的工具调用能力提供了重要参考。
北京航空航天大学团队在ICLR 2026上提出Code2Bench框架,旨在解决大语言模型(LLM)代码生成评测中数据污染和测试严谨性不足导致的“高分幻觉”问题。该框架基于“双重扩展”哲学,通过动态获取GitHub最新代码(防污染)和引入基于属性的测试(PBT)及100%分支覆盖率(高严谨性),构建了一个更动态、真实、严苛且具诊断性的评测范式。Code2B…
本文汇总了2026年2月19日AI领域的多项技术更新,涵盖模型性能提升、基准测试进展、AI代理开发及硬件创新。重点包括Gemini 3.1 Pro的推理优化、Claude Opus 4.6的评估、SWE-bench等基准测试的动态,以及多个开源项目和工具的最新动向。
DocParse Arena 是一款开源自托管平台,帮助企业在本地环境中对特定文档(如自定义发票、韩文名片、复杂简历)进行 VLM 盲测,并通过私有 ELO 排行榜评估模型优劣。它支持本地模型安全接入、专业后处理插件、并行 PDF 拆分加速,以及一键 Docker 部署,适合对隐私和定制基准有高要求的场景。
香港大学与上海交大联合推出 AutoBio,一个专为生物实验室设计的 VLA 模型仿真与评测平台。该平台解决了现有研究中对专业科学场景(尤其是生物实验室)的 VLA 模型评估不足的问题。AutoBio 构建了高保真仿真环境,模拟了生物实验室特有的复杂操作和视觉挑战,并提供了一套标准化实验任务基准。评测结果揭示了当前主流 VLA 模型在处理高精度操作、细粒度…
Google DeepMind推出Gemini 3.1 Pro,12项基准测试中全面超越Claude和GPT-4。核心亮点包括多模态能力增强、推理效率提升和开发者支持全面升级。该模型在代码生成、数学推理和创意写作等场景表现优异,标志着AI大模型性能的新高度,为开发者提供更强大的工具支持。
谷歌发布Gemini 3.1 Pro,显著提升推理与编码能力,通过ARC-AGI 2和SWE-Bench测试验证。独立机构认可其性能与成本效益,尽管存在部分质疑,但整体获得业界高度评价。
多款AI模型更新,包括Claude Opus/Sonnet 4.6、Qwen 3.5、GLM-5及Gemini 3.1 Pro。重点在于智能指数提升、推理效率优化、开源模型权重及社区表现。技术报告和讨论揭示了模型在自主性、训练成本和性能上的进展。
OpenAI 与 Paradigm 联合发布 EVMbench,提供针对 AI 代理的智能合约漏洞检测、修复和利用能力的统一基准。工具收录 30+ 高危漏洞,支持多维度评分并开放 Docker 与 Python SDK,首批评测覆盖主流大模型,帮助安全团队快速评估 AI 在合约安全中的实际表现。
socOCRbench 是一个专为社会科学文档设计的OCR基准测试工具,旨在解决现有基准测试难以区分模型性能的问题。它聚焦于复杂实际场景,为研究者和开发者提供更贴近现实的评估标准,核心亮点在于其领域针对性和实际应用导向。
MMDeepResearch‑Bench(MMDR‑Bench)是由俄亥俄州立大学、Amazon Science 等联合发布的多模态深度研究代理评测基准。它提供 140 份覆盖 19 个领域的图像‑文本任务,要求模型在检索、读图、报告撰写全链路上实现证据可追溯、断言可对齐。评测框架包括 FLAE(长文质量)、TRACE(Claim‑URL 与视觉证据核验)…
WFGY 3.0 是面向本地大语言模型的调试与基准工具。它首先回顾了 WFGY 2.0 中的 16 种 RAG/基础设施失效模式,并通过“语义防火墙”在 Prompt 层实现自检,无需改动底层系统。随后发布的 131 题张力基准包(Q001‑Q131)提供高约束、含数学结构的长链推理任务,并配套 v0.1 测试协议,帮助用户给模型打 0‑3 张力分数并标记…
Kreuzberg 开源文档智能框架发布 4.3.0 版本并推出全新对比基准。新版本加入 PaddleOCR Rust 后端、文档结构抽取以及原生 Word97 支持,显著提升中文 OCR、层级解析和遗留文档处理能力。基准测试表明其在速度、内存和冷启动等方面平均快 9 倍,依赖更少,适用于 AI 文档处理流水线。项目代码、基准工具和数据均已开源,欢迎社区贡…
Zhipu AI 推出 GLM-5,参数量达 7440 亿,集成 DeepSeek Sparse Attention 技术,性能在多个基准测试中领先,尤其适合办公场景,但受限于计算资源。