专题：reinforcement_learning

按该标签聚合的大模型资讯列表（自动分类与标签提取）。共 7 篇文章。

Momenta押注世界模型，上汽大众ID.ERA 9X首发

媒体量子位2026/03/23 16:477820

• Momenta转向世界模型

• VLA训练与驾驶需求不符

Momenta将世界模型引入R7大模型，用于提升自动驾驶对物理世界的理解。与VLA路线相比，世界模型更符合实际需求，且传感器重要性较低。上汽大众ID.ERA 9X将首发搭载该技术，代表行业技术方向的转变。

媒体量子位2026/03/20 12:097940

• 性能反超Claude

• 价格大幅下调

Cursor发布Composer 2编程模型，性能超越Claude Opus 4.6，价格大幅降低。通过‘自我总结’强化学习方法，有效解决长任务处理中的上下文瓶颈问题，提升效率与准确性。

媒体机器之心2026/02/23 20:145930

上海交大提出SIE框架，利用结构化数据构建RL训练环境，提升大模型的通用推理能力。该方法在多个任务中表现优异，且具备扩展性与泛化性，无需依赖昂贵人工标注。

官方Google AI Blog2026/01/29 23:006740

Google AI最新播客介绍了Genie 3，一个实时交互式世界模型。该模型通过动态与环境互动提升AI对现实世界的理解能力，是强化学习和机器人技术的重要突破。核心亮点在于其交互性与实时性，为AI应用提供了更灵活的解决方案。

官方美团技术团队2026/01/12 08:005840

美团技术团队在AAAI 2026发表8篇论文，涵盖LLM推理、退火策略、过程奖励模型、强化学习和视觉文本渲染等核心技术，为AI研究提供重要参考。

媒体Ahead of AI2025/03/29 19:114720

本书第一章介绍了LLMs中的推理概念，探讨了推理与模式匹配的区别，以及提升推理能力的关键方法，如性能优化和强化学习。内容为理解LLM推理机制提供了基础，后续章节将通过编码示例展示实际应用。

媒体antirez2025/02/10 02:194840

文章指出当前推理模型本质上仍是大型语言模型，其能力来源于无监督预训练和强化学习。通过DeepSeek R1和R1 Zero等案例，说明LLMs在结构和训练方法上已具备推理潜力，反驳了‘LLMs已到死胡同’的错误观点。