专题:reinforcement-learning

按该标签聚合的大模型资讯列表(自动分类与标签提取)。44 篇文章。

媒体InfoQ 中文2026/04/02 18:004720
LLM驱动Agent决策优化
异步通信提升系统效率

淘宝闪购通过AI Agent平台化建设,实现基于LLM的智能决策系统。采用强化学习优化业务流程,结合多模态数据处理技术,通过异步通信、模型压缩等手段提升系统效率。核心亮点在于构建可扩展的Agent架构,解决高并发场景下的性能瓶颈,最终实现响应速度提升40%和推理成本降低60%的技术突破。

社区Hacker News2026/03/30 15:344640
HJB方程是强化学习的核心数学工具
扩散模型在生成任务中表现突出

哈密尔顿-雅可比-贝尔曼方程是强化学习的核心工具,用于求解最优策略。扩散模型作为生成模型的重要方向,与HJB方程结合可能带来新应用。文章简要介绍了两者的基本概念及其潜在关联,具有一定的技术参考价值。

媒体Gino Notes2026/03/28 08:006830
LLM将向智能体式思考演进
Karpathy提出20/80资源分配模式

本期周刊聚焦AI领域中的智能体式思考与资源优化技术,涵盖LLM的自主决策能力、Karpathy的20/80资源分配模式、Anthropic的多智能体架构突破以及Cursor的实时强化学习方法。文章指出,模型推理能力提升后,实际任务执行效率将成为AI竞争的核心。

官方Microsoft Research Blog2026/03/27 03:025820
基于AI2-THOR的3D模拟环境
动态视觉反馈调整计划

AsgardBench是微软开源的视觉交互式规划AI评估工具,基于AI2-THOR模拟环境测试代理在动态场景中的适应能力。通过有限视觉反馈机制,揭示AI在复杂任务中的性能瓶颈,推动视觉grounding与规划技术发展,适用于研究与开发场景。

媒体InfoQ 中文2026/03/25 02:007870
Claude AI推出‘接管电脑’功能
AI Agent可执行复杂计算机任务

Claude AI推出‘接管电脑’功能,实现AI Agent对计算机操作的自动化控制。该功能基于多模态能力和强化学习,可执行文件管理、网页浏览等任务,展示了AI在实际应用中的潜力,引发对AI Agent市场竞争的讨论。

媒体Latent Space2026/03/24 14:507840
Dreamer加入Meta超级智能实验室
强化AI自主决策与任务执行能力

Meta将Dreamer纳入超级智能实验室,回顾其9个月的技术进展。项目涵盖AI助手能力扩展、自我改进代理、RL训练方法统一、文档解析与检索基础设施提升,以及多个模型和产品的发布。核心亮点在于强化AI自主决策与任务执行能力,推动AI技术在实际场景中的应用。

媒体InfoQ 中文2026/03/23 23:006860
构建大模型对话评估闭环
提升客服机器人测试效率

DoorDash构建了一个基于大模型的对话模拟与评估闭环,用于客服机器人的规模化测试。该系统通过生成模拟对话数据,评估AI客服性能,并实现自动化优化。核心亮点包括高效的数据生成、多维度评估指标和闭环反馈机制,有助于提升用户体验并降低成本。

媒体量子位2026/03/22 15:173930
校准置信度提升推理可靠性
CA-TTS框架实现多阶段验证

浙江大学团队提出CA-TTS框架,通过校准置信度和动态资源分配,显著提升多模态模型在视觉模糊情况下的推理准确率和可靠性。该方法在多个基准测试中表现优异,尤其在Math-Vision任务中提升近一倍,具有重要的技术价值。

媒体AINews2026/03/20 13:445620
Composer 2 使用 Kimi K2.5,引发归属与许可争议
二次微调、强化学习提升模型领域适配性

Cursor Composer 2 基于开源模型 Kimi K2.5,因模型归属与许可证问题引发讨论。文章指出,二次微调和强化学习是提升模型适配性的主流手段,强调标注来源、合规许可的重要性。同时,Claude Code 与第三方工具及通讯平台的集成、LangChain 向多智能体系统的演进,展示了 AI 产品差异化的最新趋势。

媒体InfoQ 中文2026/03/13 02:056820
AReaL是强化学习与智能体开发框架
提供模块化设计和实验支持

AReaL是一个强化学习与智能体开发框架,提供模块化设计和高效实验支持。其核心亮点包括环境接口、策略优化模块和评估工具,适用于实际项目中的奖励函数设置、状态空间处理和多智能体协作。该框架对开发者和研究人员具有重要参考价值。

媒体Lobsters AI2026/03/08 11:066820
AI代理自动训练纳米聊天模型
单GPU环境下实现资源优化

本文介绍了一种在单GPU环境下,利用AI代理自动训练纳米聊天模型的方法。通过结合强化学习和自动化实验设计,该方法降低了训练成本并提高了效率,具有一定的技术深度和实践价值。

媒体AINews2026/03/02 13:446830
Qwen 3.5支持多模态与轻量化部署
采用Gated DeltaNet混合注意力机制

阿里巴巴发布Qwen 3.5系列模型,涵盖0.8B至9B参数规模,支持多模态处理和扩展强化学习。模型采用Gated DeltaNet混合注意力机制,适用于边缘设备和轻量级应用。已在Ollama和LM Studio中集成,并在iPhone 17 Pro上实现6位精度运行。Codex 5.3在编码代理测试中表现良好,但系统稳定性仍是挑战。

媒体AWS Machine Learning Blog2026/02/27 01:485760

本文介绍了亚马逊Nova模型的强化微调(RFT)技术,旨在解决传统监督式微调对大量标注数据依赖的问题。RFT通过评估而非模仿来训练AI,利用奖励函数(RLVR或RLAIF)优化模型行为,使其能自主探索解决方案路径。该技术特别适用于代码生成、客户服务等难以提供详细推理过程但结果可验证的场景,并能减少令牌消耗。亚马逊通过Bedrock、SageMaker等服务…