本文提出了一套针对深度代理的评估体系构建方法,强调通过针对性评估优化代理行为。涵盖多个测试类别和指标,如正确性、效率等,并通过开源实现促进社区协作。核心亮点在于评估与实际生产需求的紧密对齐,以及对模型性能的全面度量。
专题:deep-agents
按该标签聚合的大模型资讯列表(自动分类与标签提取)。共 9 篇文章。
Moonshot提出注意力残差机制,提升计算效率并降低延迟;Codex用户增长显著,新增子代理功能并优化知识转移;LangChain开源Deep Agents框架,支持复杂编码代理流程。三者均涉及AI模型架构、训练效率及开发工具的创新。
LangChain Deep Agents 新增自主上下文压缩功能,允许模型在合适时机自动压缩上下文窗口,优化工作内存管理。该工具适用于任务边界、信息提取、复杂流程等场景,通过保留关键信息并摘要历史内容,减少上下文老化问题。已在 CLI 和 SDK 中实现,为开发者提供更灵活的上下文控制。
LangChain构建了GTM Agent,实现销售流程自动化,整合多工具数据,提升转化率和效率。核心亮点包括多源信息整合、子Agent委托机制、反馈循环与评估系统,以及跨部门的自然采用。
LangChain 2026年2月更新聚焦于Agent Builder新功能、LangSmith性能优化及生产监控方法,同时展示了开源进展与行业应用案例,为AI Agent开发和部署提供了实用工具与实践经验。
LangSmith Agent Builder 通过文件化的虚拟文件系统实现了程序性和语义记忆,使得零代码代理能够在重复任务中持续学习并自动更新指令。文章详细阐述了记忆文件的组织、实现细节、实际案例以及开发过程中的关键经验,并展望了情景记忆和语义检索的未来方向。
LangChain 通过系统化的“工具箱工程”,在 Terminal Bench 2.0 基准上将 deepagents‑cli 代理的得分从 52.8 提升至 66.5,排名跃升至第 5 位。核心做法包括重写系统提示、精炼工具链、增强中间件并加入自动化追踪分析与自我验证循环,同时合理分配推理预算。实验表明,闭环优化显著提升了代码质量和任务完成率,为 LL…
LangChain的Deep Agents SDK旨在解决AI代理在处理长任务时面临的上下文窗口限制和信息丢失问题。该SDK通过文件系统抽象层,实现了三种核心上下文压缩机制:卸载大型工具结果、卸载大型工具输入以及对话总结。当上下文大小超出预设阈值时,系统会将冗余或过时信息(如工具响应、旧输入记录、完整对话)保存到文件系统,仅在工作内存中保留关键摘要或文件引…
Deep Agents 框架提供了一种构建高效多智能体应用的新范式,核心在于子代理(Subagents)和技能(Skills)两大机制。子代理通过将复杂任务分解并隔离上下文,有效解决了大型语言模型在多步骤任务中常见的“上下文膨胀”问题,避免智能体陷入“哑区”,并支持并行处理与异构模型集成。技能机制则允许系统按需逐步向智能体披露所需功能,实现灵活的功能管理。…