专题：tool-learning

AdaReasoner：7B小模型如何通过动态工具编排实现多模态推理能力飞跃，特定任务超越GPT-5

媒体机器之心2026/02/15 19:065940

AdaReasoner提出一种创新的训练范式，使7B小模型在多模态推理任务中实现性能飞跃，甚至在特定拼图推理任务上超越GPT-5。其核心在于将“何时、何种、如何使用工具”作为一种通用推理能力进行学习，而非简单调用。通过Tool Cold Start（TC）引入错误修正与回溯机制，Tool-GRPO（TG）优化多轮工具编排，以及Adaptive Learni…

多模态推理工具学习小型模型强化学习智能代理