专题:grpo

按该标签聚合的大模型资讯列表(自动分类与标签提取)。3 篇文章。

媒体AWS Machine Learning Blog2026/03/26 01:307950
Amazon Bedrock支持RFT训练,无需端点配置
使用OpenAI API进行模型强化微调

Amazon Bedrock推出强化微调功能,支持OpenAI兼容API,简化LLM训练流程。通过奖励函数和自动化训练,开发者可高效定制模型,适用于数学推理等任务。文章提供完整代码示例和监控方法,适合开发者和研究人员参考。

社区Reddit r/LocalLLaMA2026/02/12 21:2820

研究者使用 GRPO 与 LoRA 对开源 120B 模型 gpt‑oss‑120b 进行微调,针对 2025 年特朗普行为的 2,790 条二元预测题进行训练。模型在 682 条留出测试集上取得 Brier Score 0.194、ECE 0.079,分别优于基线模型和 GPT‑5(0.200、0.091),并在带/不带上下文两种情形下均表现更佳。实验细…

媒体Ahead of AI2025/12/30 20:227930
推理模型推动LLM性能提升
RLVR和GRPO算法降低成本

2025年大语言模型发展聚焦于推理能力提升、RLVR与GRPO算法应用,以及开源模型的进展。文章分析了模型训练成本、工具使用对减少幻觉的影响,并指出评估体系仍不完善。未来趋势包括扩散模型在行业中的应用和推理扩展的优化。