告别“只看结果”：Reagent 框架革新 Agent 训练，让模型学会“思考过程”

当前和的训练普遍存在一个问题：仅关注最终结果的对错，即“只看结果”的奖励机制。这种方式在单轮问答中尚可接受，但对于这种需要多轮对话、搜索、网页浏览、代码编写和文件阅读的长链任务而言，用一个简单的对错信号来概括整个复杂过程是远远不够的。其弊端在于，接近成功的过程与从一开始就偏离的过程在奖励上没有区别，导致训练难以区分有价值的失败。而手动规则或人工细粒度打分又难以应对开放环境和多模态的复杂性。

香港中文大学与美团的研究团队针对这一核心矛盾，提出了一种名为 Reagent 的框架，旨在为提供长程、细粒度的反馈，弥补现有粗粒度奖励的不足。其核心思想是让为自己的思考和工具调用过程负责。

Agent-RRM：为 Agent 的思考过程打分

Reagent 框架的关键创新在于引入了一个能够理解推理过程并评估工具调用的评审器——-RRM。该模型能够为的完整轨迹打出“过程分”和“评语”，并将这些反馈用于训练。

研究团队构建了一个专门的“思考评分类”数据集，其中包含各种真实的轨迹，并对每条轨迹标注了详细的“阅卷意见”，包括思路的合理性、跑偏之处以及一个 0-1 之间的整体分数。基于此数据集训练的 -RRM，能够从头到尾审视的整个过程，输出内部分析、给的批评意见以及一个综合分数。例如，即使两条轨迹最终都得到了正确答案，但如果一条轨迹逻辑跳跃、工具滥用，-RRM 可能只给较低分数（如 0.3），而另一条思路清晰、工具使用得当的轨迹则可能获得高分（如 0.9）。这种做法旨在教会 “怎么想”和“怎么用工具”，而非仅仅“怎么猜对答案”。

Reagent 框架：统一文本批评与奖励信号

Reagent 框架解决了如何将 -RRM 的反馈有效地整合到训练中的问题，它将“文字点评”和“分数奖励”统一起来。

框架提供了三种使用方式：

Reagent-C（仅加点评，不改模型）：在推理时，先完成任务，-RRM 提供批评意见，然后根据点评重做一遍。这相当于为现有模型增加了一个“二次检查”的环节。
Reagent-R（过程分加入奖励）：将 -RRM 生成的过程分数作为额外奖励，与结果对错奖励结合。这有助于缓解奖励稀疏问题，即使最终结果不完美，只要思路合理，也不会被视为无效样本。
Reagent-U（统一训练）：这是文章重点强调的方式，将“首次思考”和“批评后的再思考”两种轨迹及其反馈（结果奖励 + 过程分数）一同用于训练。这使得模型能够学习如何减少初次犯错，并根据反馈进行更聪明的修正。部署时，Reagent-U 无需外部 -RRM，其能力已内化于模型参数中。

实验结果与提升

实验结果表明，仅使用文本点评就能提升数学和搜索任务的正确率。加入过程分数后，更倾向于选择思路正确的方向。在 Reagent-U 模式下，基于 8B 模型的 Reagent-U 在 GAIA 通用基准的文本子集上达到了 43.7% 的平均成绩，媲美甚至超越了更大参数量的开源。在 WebWalkerQA、HLE、xbench 等复杂任务上，Reagent-U 也表现得更稳定，不易被误导。即使面对多模态的通用任务，Reagent-U 依然有效。

港中文与美团提出的 Reagent 框架，成功地将“过程评分”引入训练，证明了即使是 8B 参数级别的，也能通过关注思考过程，在复杂任务上取得与相当的成绩。

告别“只看结果”：Reagent 框架革新 Agent 训练，让模型学会“思考过程”

内容评分

摘要

正文

标签