告别“只看结果”:Reagent 框架革新 Agent 训练,让模型学会“思考过程”
内容评分
摘要
香港中文大学与美团联合提出的 Reagent 框架,旨在解决 Agent 训练中奖励信号稀疏的问题。该框架引入了 Agent-RRM 模型,能够对 Agent 的推理过程和工具使用进行细粒度评估,并生成过程分数和文本批评。通过将这些反馈整合到训练中(Reagent-C, Reagent-R, Reagent-U),Reagent 框架显著提升了 Agent 在复杂任务上的表现,使其不再局限于终局奖励,而是学会了“如何思考”和“如何修正”,从而在多项基准测试中取得了优异成绩。
正文
当前和 的训练普遍存在一个问题:仅关注最终结果的对错,即“只看结果”的奖励机制。这种方式在单轮问答中尚可接受,但对于 这种需要多轮对话、搜索、网页浏览、代码编写和文件阅读的长链任务而言,用一个简单的对错信号来概括整个复杂过程是远远不够的。其弊端在于,接近成功的过程与从一开始就偏离的过程在奖励上没有区别,导致训练难以区分有价值的失败。而手动规则或人工细粒度打分又难以应对开放环境和多模态的复杂性。
香港中文大学与美团的研究团队针对这一核心矛盾,提出了一种名为 Reagent 的框架,旨在为 提供长程、细粒度的反馈,弥补现有粗粒度奖励的不足。其核心思想是让 为自己的思考和工具调用过程负责。
Agent-RRM:为 Agent 的思考过程打分
Reagent 框架的关键创新在于引入了一个能够理解推理过程并评估工具调用的评审器——-RRM。该模型能够为 的完整轨迹打出“过程分”和“评语”,并将这些反馈用于训练。
研究团队构建了一个专门的“思考评分类”数据集,其中包含各种真实的 轨迹,并对每条轨迹标注了详细的“阅卷意见”,包括思路的合理性、跑偏之处以及一个 0-1 之间的整体分数。基于此数据集训练的 -RRM,能够从头到尾审视 的整个过程,输出内部分析、给 的批评意见以及一个综合分数。例如,即使两条轨迹最终都得到了正确答案,但如果一条轨迹逻辑跳跃、工具滥用,-RRM 可能只给较低分数(如 0.3),而另一条思路清晰、工具使用得当的轨迹则可能获得高分(如 0.9)。这种做法旨在教会 “怎么想”和“怎么用工具”,而非仅仅“怎么猜对答案”。
Reagent 框架:统一文本批评与奖励信号
Reagent 框架解决了如何将 -RRM 的反馈有效地整合到 训练中的问题,它将“文字点评”和“分数奖励”统一起来。
框架提供了三种使用方式:
- Reagent-C(仅加点评,不改模型):在推理时, 先完成任务,-RRM 提供批评意见,然后 根据点评重做一遍。这相当于为现有模型增加了一个“二次检查”的环节。
- Reagent-R(过程分加入奖励):将 -RRM 生成的过程分数作为额外奖励,与结果对错奖励结合。这有助于缓解奖励稀疏问题,即使最终结果不完美,只要思路合理,也不会被视为无效样本。
- Reagent-U(统一训练):这是文章重点强调的方式,将“首次思考”和“批评后的再思考”两种轨迹及其反馈(结果奖励 + 过程分数)一同用于训练。这使得模型能够学习如何减少初次犯错,并根据反馈进行更聪明的修正。部署时,Reagent-U 无需外部 -RRM,其能力已内化于模型参数中。
实验结果与提升
实验结果表明,仅使用文本点评就能提升数学和搜索任务的正确率。加入过程分数后, 更倾向于选择思路正确的方向。在 Reagent-U 模式下,基于 8B 模型的 Reagent-U 在 GAIA 通用 基准的文本子集上达到了 43.7% 的平均成绩,媲美甚至超越了更大参数量的开源 。在 WebWalkerQA、HLE、xbench 等复杂任务上,Reagent-U 也表现得更稳定,不易被误导。即使面对多模态的通用 任务,Reagent-U 依然有效。
港中文与美团提出的 Reagent 框架,成功地将“过程评分”引入 训练,证明了即使是 8B 参数级别的 ,也能通过关注思考过程,在复杂任务上取得与相当的成绩。