首页/详情

腾讯混元团队推出GradLoc:精准定位RLVR训练中的异常token

机器之心2026/02/14 16:29机翻/自动摘要/自动分类
5 阅读

摘要

腾讯混元团队推出GradLoc工具,精准定位RLVR训练中的异常token,解决训练崩溃问题。通过二分搜索和自适应阈值,GradLoc显著提升调试效率,识别出训推不一致和层间梯度异质性等新现象,并提出分层裁剪方案。该工具开源,推动RLVR调优从经验回归科学。

正文

腾讯混元研究团队在强化学习(RLVR)领域推出了一项重要工具GradLoc,旨在解决训练崩溃问题。该工具通过二分搜索策略,将全局梯度突刺精准定位到具体异常,显著降低了工程调试的复杂度。GradLoc不仅适用于大规模分布式训练环境,还结合自适应阈值机制,有效避免误检和漏检。在实际应用中,GradLoc帮助识别出两种主要问题类型:训推不一致(Type A)和层间梯度异质性(Type B),并据此提出TokenClip、SeqClip和LayerClip等改进方案。通过GradLoc,开发者能够基于确凿数据进行算法迭代,使RLVR调优从‘玄学’回归‘科学’。该工具已开源,为社区提供了可观测的基础设施工具,推动RLVR训练的系统化和高效化。

标签