首页/详情

Agent Lightning:微软亚洲研究院发布革命性框架,AI代理无需重写代码即可集成强化学习

Microsoft Research Blog2025/12/12 01:00机翻/自动摘要/自动分类
4 阅读

内容评分

技术含量
8/10
营销水分
5/10

摘要

微软亚洲研究院上海分部发布了Agent Lightning开源框架,旨在解决AI代理集成强化学习(RL)的难题。该框架通过将代理执行与RL训练解耦,允许开发者几乎无需修改现有代码即可为LLM代理添加RL能力。它将代理行为标准化为状态-动作序列,并引入分层RL算法LightningRL,显著提升了多步任务的处理效率和准确性。Agent Lightning在文本到SQL、RAG和数学问答等场景中均取得了显著性能提升,为AI代理的持续改进提供了强大支持。

正文

AI代理正以前所未有的方式重塑软件开发,从传统的代码编写转向执行复杂指令。然而,基于大型语言模型()的代理在处理多步骤任务时常显不足,且容易出错。强化学习(RL)作为一种通过试错和奖励/惩罚机制来优化决策的方法,能显著提升AI系统的性能。但传统RL集成往往需要开发者大量修改现有代码,成为其广泛应用的瓶颈。

为打破这一僵局,微软亚洲研究院上海分部的研究团队推出了Agent Lightning。这是一个开源框架(GitHub链接),其核心创新在于将代理的任务执行与RL模型训练解耦,使得开发者几乎无需改动现有代码即可为AI代理注入RL能力。

捕获代理行为以供训练: Lightning将代理的执行过程转化为RL可用的数据格式。它将代理的每一次状态转换视为一个序列,其中状态代表代理的当前情况,而每一次调用则被视为一个将代理从当前状态转移到新状态的动作。无论工作流程多么复杂,包括多代理协作或动态工具使用, Lightning都能将其分解为一系列标准化的状态-动作转换。每个转换都详细记录了的输入、输出以及相应的奖励,无需额外处理即可直接用于RL训练。

分层强化学习算法 (LightningRL): 传统RL训练常将所有交互拼接成一个长序列,这在处理复杂任务时效率低下且易导致性能下降。 Lightning的LightningRL算法采用分层方法:任务完成后,一个信用分配模块会精确评估每个请求对最终结果的贡献度,并据此分配奖励。这些独立的、带有奖励分数的步骤可以与现有的单步RL算法(如PPO、GRPO)无缝集成。

Agent Lightning作为中间件: 该框架充当RL算法与代理环境之间的桥梁,提供模块化组件和标准化接口,实现可扩展的RL集成。

  • 代理运行器 (Agent Runner):负责管理代理的任务执行、工作分配和数据收集,可独立于运行,并支持多代理并发。
  • 算法 (Algorithm):负责模型训练和推理,协调RL周期,包括任务分配、代理执行策略以及基于学习结果的模型更新。
  • LightningStore:作为系统内所有数据交换的中心存储库,提供标准化接口和格式,确保各组件间的顺畅协作。

实验验证: Lightning在三个实际场景中均展现出卓越性能提升:

  1. 文本到SQL (LangChain):显著提高了从自然语言生成可执行SQL的准确性,优化了SQL生成、检查和重写流程。
  2. 检索增强生成 (RAG):在MuSiQue多跳问答数据集上,帮助代理生成更有效的搜索查询,并提升了对检索内容的利用效率。
  3. 数学问答与工具使用 (AutoGen):使能更准确地判断何时及如何使用工具解决复杂数学问题,并有效整合工具结果,从而提高推理准确性。

总结: Lightning的算法灵活性允许开发者自定义代理的学习方式(如定义奖励、捕获中间数据、尝试不同训练方法)。其设计还提高了资源效率,允许各组件根据需求选择最适合的硬件(CPU用于代理运行,GPU用于模型训练)。开发者可保留现有代理框架,仅通过调用 Lightning API切换模型调用,无需修改核心代码。

未来展望: 团队计划进一步扩展 Lightning的功能,包括自动提示优化和集成更多RL算法,旨在将其打造成一个支持AI代理持续改进的开放平台。

标签