媒体AWS Machine Learning Blog2026/03/26 01:307950
• Amazon Bedrock支持RFT训练,无需端点配置
• 使用OpenAI API进行模型强化微调
Amazon Bedrock推出强化微调功能,支持OpenAI兼容API,简化LLM训练流程。通过奖励函数和自动化训练,开发者可高效定制模型,适用于数学推理等任务。文章提供完整代码示例和监控方法,适合开发者和研究人员参考。
按该标签聚合的大模型资讯列表(自动分类与标签提取)。共 3 篇文章。
Amazon Bedrock推出强化微调功能,支持OpenAI兼容API,简化LLM训练流程。通过奖励函数和自动化训练,开发者可高效定制模型,适用于数学推理等任务。文章提供完整代码示例和监控方法,适合开发者和研究人员参考。
研究者使用 GRPO 与 LoRA 对开源 120B 模型 gpt‑oss‑120b 进行微调,针对 2025 年特朗普行为的 2,790 条二元预测题进行训练。模型在 682 条留出测试集上取得 Brier Score 0.194、ECE 0.079,分别优于基线模型和 GPT‑5(0.200、0.091),并在带/不带上下文两种情形下均表现更佳。实验细…
2025年大语言模型发展聚焦于推理能力提升、RLVR与GRPO算法应用,以及开源模型的进展。文章分析了模型训练成本、工具使用对减少幻觉的影响,并指出评估体系仍不完善。未来趋势包括扩散模型在行业中的应用和推理扩展的优化。