专题：visual-reasoning

按该标签聚合的大模型资讯列表（自动分类与标签提取）。共 3 篇文章。

微软开源AsgardBench：视觉交互式规划AI代理评估新基准

官方Microsoft Research Blog2026/03/27 03:025820

• 基于AI2-THOR的3D模拟环境

• 动态视觉反馈调整计划

AsgardBench是微软开源的视觉交互式规划AI评估工具，基于AI2-THOR模拟环境测试代理在动态场景中的适应能力。通过有限视觉反馈机制，揭示AI在复杂任务中的性能瓶颈，推动视觉grounding与规划技术发展，适用于研究与开发场景。

开源工具 AI代理评估动态反馈机制环境适应性视觉感知

浙江大学团队提出CA-TTS框架：校准置信度，提升多模态模型推理可靠性

原文

媒体量子位2026/03/22 15:173930

• 校准置信度提升推理可靠性

• CA-TTS框架实现多阶段验证

浙江大学团队提出CA-TTS框架，通过校准置信度和动态资源分配，显著提升多模态模型在视觉模糊情况下的推理准确率和可靠性。该方法在多个基准测试中表现优异，尤其在Math-Vision任务中提升近一倍，具有重要的技术价值。

置信度校准推理时扩展多模态模型强化学习视觉推理

Ovis2.6-30B-A3B 多模态大模型发布：MoE 架构加持，视觉理解与长文本能力超越Qwen3-VL

原文

社区Reddit r/LocalLLaMA2026/02/12 20:0830

Ovis 系列多模态大模型（MLLM）发布最新版本 Ovis2.6-30B-A3B。该模型在 Ovis2.5 的基础上，将核心 LLM 骨干网络升级为稀疏混合专家（MoE）架构，旨在以更低的推理成本提供卓越的多模态性能。Ovis2.6-30B-A3B 在长上下文和高分辨率内容理解、基于主动图像分析的视觉推理以及信息密集型文档理解方面均有显著提升。据称，在 …

多模态大模型混合专家架构视觉推理长上下文处理模型优化