专题：grpo

按该标签聚合的大模型资讯列表（自动分类与标签提取）。共 3 篇文章。

Amazon Bedrock 强化微调技术详解与实践指南

原文

媒体AWS Machine Learning Blog2026/03/26 01:307950

• Amazon Bedrock支持RFT训练，无需端点配置

• 使用OpenAI API进行模型强化微调

Amazon Bedrock推出强化微调功能，支持OpenAI兼容API，简化LLM训练流程。通过奖励函数和自动化训练，开发者可高效定制模型，适用于数学推理等任务。文章提供完整代码示例和监控方法，适合开发者和研究人员参考。

生成式强化编程 OpenAI SDK 强化微调 OpenAI兼容API GRPO优化算法

微调开源 120B 模型，Brier 分数击败 GPT‑5：特朗普行为预测实证

原文

社区Reddit r/LocalLLaMA2026/02/12 21:2820

研究者使用 GRPO 与 LoRA 对开源 120B 模型 gpt‑oss‑120b 进行微调，针对 2025 年特朗普行为的 2,790 条二元预测题进行训练。模型在 682 条留出测试集上取得 Brier Score 0.194、ECE 0.079，分别优于基线模型和 GPT‑5（0.200、0.091），并在带/不带上下文两种情形下均表现更佳。实验细…

模型微调生成式强化编程 LoRA微调 Brier 分数模型校准

2025年大语言模型发展综述：推理、RLVR与GRPO的突破

原文

媒体Ahead of AI2025/12/30 20:227930

• 推理模型推动LLM性能提升

• RLVR和GRPO算法降低成本

2025年大语言模型发展聚焦于推理能力提升、RLVR与GRPO算法应用，以及开源模型的进展。文章分析了模型训练成本、工具使用对减少幻觉的影响，并指出评估体系仍不完善。未来趋势包括扩散模型在行业中的应用和推理扩展的优化。

可验证奖励强化学习生成式强化编程推理扩展开源项目基准测试