专题：rlvr

按该标签聚合的大模型资讯列表（自动分类与标签提取）。共 2 篇文章。

腾讯混元团队推出GradLoc：精准定位RLVR训练中的异常token

媒体机器之心2026/02/14 16:2950

腾讯混元团队推出GradLoc工具，精准定位RLVR训练中的异常token，解决训练崩溃问题。通过二分搜索和自适应阈值，GradLoc显著提升调试效率，识别出训推不一致和层间梯度异质性等新现象，并提出分层裁剪方案。该工具开源，推动RLVR调优从经验回归科学。

媒体Ahead of AI2025/12/30 20:227930

• 推理模型推动LLM性能提升

• RLVR和GRPO算法降低成本

2025年大语言模型发展聚焦于推理能力提升、RLVR与GRPO算法应用，以及开源模型的进展。文章分析了模型训练成本、工具使用对减少幻觉的影响，并指出评估体系仍不完善。未来趋势包括扩散模型在行业中的应用和推理扩展的优化。