专题：multimodal-models

按该标签聚合的大模型资讯列表（自动分类与标签提取）。共 5 篇文章。

浙江大学团队提出CA-TTS框架：校准置信度，提升多模态模型推理可靠性

媒体量子位2026/03/22 15:173930

• 校准置信度提升推理可靠性

• CA-TTS框架实现多阶段验证

浙江大学团队提出CA-TTS框架，通过校准置信度和动态资源分配，显著提升多模态模型在视觉模糊情况下的推理准确率和可靠性。该方法在多个基准测试中表现优异，尤其在Math-Vision任务中提升近一倍，具有重要的技术价值。

媒体量子位2026/03/21 17:485930

• 引入类别树知识解决分层识别问题

• 对齐视觉与文本表征提升泛化能力

北京大学彭宇新团队提出TARA方法，通过分类感知表征对齐技术，将类别树结构知识注入多模态大模型，解决了分层视觉识别中从粗到细的精准识别难题。该方法不仅提升了最终细粒度类别的识别准确率，还增强了模型对新类别的泛化能力。论文被CVPR 2026接收并开源，为生物分类和通用视觉理解提供了重要进展。

媒体机器之心2026/02/13 17:0250

SSI-Bench是一个基于约束流形的空间智能评估基准，旨在检验多模态大模型在复杂三维结构推理中的能力。通过人工构建的1,000道排序题，该基准揭示了当前模型在三维结构识别和约束推理上的显著不足，人类表现远超AI。其核心亮点在于结合结构工程知识，提供更贴近现实的评测环境。

媒体Last Week in AI2026/02/04 13:257860

• Kimi K2.5多模态模型发布

• 15万亿混合token训练

Moonshot发布Kimi K2.5多模态模型，基于15万亿混合token训练，具备强代理能力和代理群编排功能，适用于开发者和研究者，推动开源AI生态发展。

官方Microsoft Research Blog2026/01/28 01:007930

• UniRG-CXR 采用强化学习优化临床指标

• 模型在跨机构和子群体中表现稳健

UniRG 是一种基于多模态强化学习的医学影像报告生成框架，通过结合监督微调与强化学习，提升了模型在临床环境中的泛化能力和可靠性。UniRG-CXR 在多个数据集和指标上表现领先，尤其在跨机构和纵向报告生成方面具有显著优势，为医疗AI的实用化提供了新方向。