首页/详情

AdaReasoner:7B小模型如何通过动态工具编排实现多模态推理能力飞跃,特定任务超越GPT-5

机器之心2026/02/15 19:06机翻/自动摘要/自动分类
4 阅读

内容评分

技术含量
9/10
营销水分
5/10

摘要

AdaReasoner提出一种创新的训练范式,使7B小模型在多模态推理任务中实现性能飞跃,甚至在特定拼图推理任务上超越GPT-5。其核心在于将“何时、何种、如何使用工具”作为一种通用推理能力进行学习,而非简单调用。通过Tool Cold Start(TC)引入错误修正与回溯机制,Tool-GRPO(TG)优化多轮工具编排,以及Adaptive Learning(ADL)强制模型理解工具语义而非死记硬背,AdaReasoner赋予模型主动采纳、丢弃和调节工具使用的智能行为。这与Google的Agentic Vision理念不谋而合,预示着“主动工具使用”正成为多模态AI推理的主流范式,尤其对资源有限的小模型而言,是实现能力放大的关键路径。

正文

你见过7B模型在拼图推理上超越GPT-5吗?这并非依靠堆砌参数或更大的数据量,而是通过一项核心能力:学会“什么时候该用工具”。

大多数“工具增强”模型通常是:遇到任务X → 调用固定工具Y → 祈祷结果正确。一旦场景稍有变化,模型便会失灵,无法判断何时该用或不该用何种工具。

AdaReasoner解决的是一个更本质的问题:将“用什么、何时用、怎么用”(what / when / how)作为一种推理能力来学习。

论文信息:

  • 论文标题:AdaReasoner: Dynamic Tool Orchestration for Iterative Visual Reasoning
  • 论文(arXiv):https://arxiv.org/abs/2601.18631
  • 项目主页:https://adareasoner.github.io
  • 代码:https://github.com/ssmisya/AdaReasoner
  • 模型与数据:https://huggingface.co/collections/hitsmy/adareasoner
  • 视频(YouTube):https://www.youtube.com/watch?v=_SOyD-lomOM

Google近期宣布,为其轻量级模型Gemini 3 Flash引入一项名为“Agentic Vision”(代理视觉)的新能力。这项更新标志着多模态AI处理图像的方式发生了根本性转变:从传统的静态识别,升级为具备“思考、行动、观察”循环的主动调查模式。

在此之前,包括GPT在内的大多数前沿多模态模型处理图像的方式类似于人类的“匆匆一瞥”:模型接收图像,进行一次性处理并输出结果。这种方式在面对需要细致观察的任务时,往往会因为细节丢失而产生幻觉或猜测。

Agentic Vision的工作机制:Gemini 3 Flash现在能够像人类调查员一样通过以下循环进行推理:

  • 思考(Think)——分析用户指令和图像初步内容,制定调查计划。
  • 行动(Act)——自动生成并执行Python代码来操作图像。例如,对图像进行缩放、裁剪特定区域、旋转视角或绘制辅助线。
  • 观察(Observe)——检查代码执行后的新视图或数据,获取更精确的视觉证据。

上述过程可以多次迭代,直到模型收集到足够的确凿证据来回答问题。

有意思的是:AdaReasoner与Agentic Vision殊途同归。AdaReasoner同样实现并验证了几乎相同的范式。

工业界与学术界同时押注“主动工具使用”,说明这个方向正在成为多模态推理的主流范式。

AdaReasoner的独特价值在于:我们不只是验证了这套范式有效,更提出了一套让开源小模型也能习得这种能力的训练方法——这正是接下来要详细介绍的内容。

01 痛点:多模态推理为什么总是“看起来很会,细节就开始猜”?

在多模态推理里,“看清细节”和“多步推理”经常互相卡脖子:感知不够精确 → 证据不足 → 推理再漂亮也容易变成“guided guessing”;反过来,如果能把关键证据用工具查出来、画出来、验证出来,模型就能把算力用在判断与规划上。换句话说:工具不是外挂,而是把推理从“猜”拉回“查”的关键路径。

02 一句话介绍 AdaReasoner:把工具使用当成“通用推理技能”

AdaReasoner是一个训练范式:让模型不仅会“调用工具”,更会做三类决策:

  • 选择:该用哪个工具?要不要组合多个工具?
  • 时机:什么时候该用?什么时候不该用?
  • 鲁棒性:工具失败/无用怎么办?是否回退、是否换策略?

AdaReasoner把“工具使用”当成推理技能来学习:会采纳有用工具、丢弃无关工具,并按任务调节调用频率。

03 三个关键设计:让“会用工具”从口号变成能力

3.1 Tool Cold Start (TC):把“犯错-修正”写进数据里

我们不是只给模型看“完美路径”,而是刻意加入两类真实世界会发生的场景:

  • 反思与回溯:试一下 → 检查 → 不对就撤回/换方案。
  • 工具失败处理:工具返回错误/无效 → 及时止损 → 回退到模型自身能力。

定性案例:多轮工具规划 + 反思纠错 + 组合工具完成复杂视觉推理。

3.2 Tool-GRPO (TG):优化“多轮工具编排”,而不是单次调用

多模态工具推理往往不是“一次调用结束”,而是多回合:观察 → 调用 → 再观察 → 再调用 → 最终回答。Tool-GRPO针对multi-turn场景做了专门的强化学习优化,并用自适应奖励把工具使用变成“不确定时的可靠后备”,而不是强制流程。

3.3 Adaptive Learning (ADL):逼模型学“语义”,别背“名字”

为了避免模型死记硬背某个工具名(比如看到 "Point" 就条件反射),我们做了两件事:

  • 工具名/参数名随机化(去掉字面提示)。
  • 工具描述改写(同一语义、多种表达)。

AdaReasoner框架总览:Tool Cold Start → Tool-GRPO → Adaptive Learning。

04 最硬的证据:小模型为什么能“跨级打怪”?

先给结论:AdaReasoner-7B相对base模型在多个基准上实现显著提升(在选取的8个benchmark上平均+24.9%),并在结构化推理任务上接近满分。

主实验结果:在VSP、Jigsaw、GUIQA等任务上显著提升。更重要的是:不是“工具越多越好”,而是训练配方决定工具是否真的帮得上忙。例如在单任务设置下:

  • VSP: Base 28.09 → TC 64.91 → TG 73.18 → TC+TG 97.64
  • Jigsaw: Base 45.70 → TC 84.20 → TC+TG 96.60(超过GPT-5的80.10)

瓶颈迁移示意:当工具规划足够好,性能瓶颈从“模型规模”部分迁移到“工具效用与工具规划能力”。

05 最有意思的部分:模型真的学出了“三种自适应工具行为”

这部分是AdaReasoner最像“”的地方:我们没有写规则让它这么做,但它在RL过程中学会了。

行为1:会“采纳”有用的新工具(Adopt)

把A*规划工具放进强化学习阶段(Cold Start没见过),模型会逐步提高调用频率并稳定掌握:VSP Navigation从44.83 → 96.33。

A*工具调用频率随RL训练演化。

行为2:会“丢弃”无关工具(Discard)

更关键的是:A对Verify任务没用,甚至是干扰项。在“只在推理时提供A”的设置里,Verify会出现94.20 → 80.00的下降。而在RL训练后,模型会逐步压制无关调用,让Verify维持在接近满分(99.20)。一句话:它不仅会用工具,还会学会“别乱用”。

行为3:会“调节”调用频率(Modulate)

工具也不是开/关二选一。模型会根据子任务“调频”:Point工具在导航更关键(~3.2 calls/sample),在验证更克制(~1.0 call/sample)。

Point工具调用频率“调频”:Navigation中更关键,Verification中更克制。

06 换工具说明书也能用:泛化与稳健性

现实里最常见的崩溃方式是:工具定义、参数名、描述文案一变,模型就“不会用了”。AdaReasoner用ADL(随机化+改写)把“工具规划”从文本表面形式里解耦出来。

一个很直观的证据来自工具使用统计:

  • 在Jigsaw上达到3.54 CPS且工具执行成功率98.50%,最终准确率88.60。
  • 在VStar这种更开放的VQA上仍能主动调用工具(1.47 CPS)并取得70.68。

工具使用统计(CPS、成功率)与性能。此外,使用ADL,模型能够更容易在新的任务上取得更好的表现。我们仅使用Jigsaw这一个任务的数据,在三个任务上RL,可以看到,使用ADL的版本能够在另外两个任务上给模型带来效果上的提升。

ADL能将单个任务上学来的 planning能力迁移到没见过的任务上。

07 我们想强调的学术结论(Takeaways)

多模态推理不只是“think harder”。更关键的是:actively seeing, verifying, and planning with tools。

当工具编排学得足够好,瓶颈会发生迁移:model scale → tool utility + tool planning。

这对小模型尤其重要:参数有限时,“会用工具”就是最直接的能力放大器。

从Agentic Vision看趋势:Google用Agentic Vision把Think-Act-Observe内置到Gemini,学术界用AdaReasoner验证这套范式在开源模型上的可行性——两条路线同时验证了“主动工具使用”的价值。对于希望在自己数据/场景上复现这种能力的研究者和开发者,AdaReasoner提供了一套完整的开源方案。

Adaptive Learning对提升模型的泛化性也有很大帮助,可以帮助将 planning能力迁移到以前没见过的和新的任务上去。

标签