腾讯混元团队推出GradLoc:精准定位RLVR训练中的异常token原文媒体机器之心2026/02/14 16:2950腾讯混元团队推出GradLoc工具,精准定位RLVR训练中的异常token,解决训练崩溃问题。通过二分搜索和自适应阈值,GradLoc显著提升调试效率,识别出训推不一致和层间梯度异质性等新现象,并提出分层裁剪方案。该工具开源,推动RLVR调优从经验回归科学。GradLoc工具可验证奖励强化学习梯度裁剪技术分布式训练模型调优