媒体机器之心2026/02/14 16:2950
腾讯混元团队推出GradLoc工具,精准定位RLVR训练中的异常token,解决训练崩溃问题。通过二分搜索和自适应阈值,GradLoc显著提升调试效率,识别出训推不一致和层间梯度异质性等新现象,并提出分层裁剪方案。该工具开源,推动RLVR调优从经验回归科学。
按该标签聚合的大模型资讯列表(自动分类与标签提取)。共 2 篇文章。
腾讯混元团队推出GradLoc工具,精准定位RLVR训练中的异常token,解决训练崩溃问题。通过二分搜索和自适应阈值,GradLoc显著提升调试效率,识别出训推不一致和层间梯度异质性等新现象,并提出分层裁剪方案。该工具开源,推动RLVR调优从经验回归科学。
2025年大语言模型发展聚焦于推理能力提升、RLVR与GRPO算法应用,以及开源模型的进展。文章分析了模型训练成本、工具使用对减少幻觉的影响,并指出评估体系仍不完善。未来趋势包括扩散模型在行业中的应用和推理扩展的优化。