工具箱工程：提升深度代理在 Terminal Bench 2.0 的排名

背景

LangChain 团队在 Terminal Bench 2.0（覆盖机器学习、调试、生物学等 89 项任务的代理编程基准）上，将原本排名约第 30 位、得分 52.8 分的 deepagents‑cli 编码代理提升至第 5 位、得分 66.5 分。提升仅来源于对代理“工具箱”（运行环境配置）的系统化改造，模型本身（gpt-5.2-codex）保持不变。

什么是工具箱工程

工具箱是指围绕代理构建的系统提示、可调用工具、中间件、子代理协作方式以及内存管理等全部配置。工具箱工程的目标是通过 系统提示优化、工具链选择、执行中间件调优 三大维度，提升任务完成率、代码质量和响应时延。

实验平台

Terminal Bench 2.0：标准化的代理编程评测套件。
Harbor：实验调度框架，负责沙箱创建、代理交互、结果验证与评分。
LangSmith Traces：收集代理每一步的输入/输出日志，用于离线错误分析。

关键改进步骤

系统提示重写：加入任务规划、环境感知、错误自检等引导语，使模型在生成代码前先形成可验证的计划。
工具链精炼：限定可用 CLI 工具、文件系统 API，并为每类任务预置专用工具（如 git diff、pytest）。
中间件增强：实现统一的 Trace Analyzer，自动从 LangSmith 拉取实验数据、并行运行错误分析进程，最终由主代理汇总建议并迭代工具箱配置。
自我验证机制：在每轮代码生成后自动执行单元测试，若失败则触发“重新规划‑修复”循环；同时监控文件修改次数，防止死循环。
计算资源调度：为规划与验证阶段分配更高的推理预算（如 temperature=0.2, max_tokens=4096），在执行阶段适当降低，以平衡成本与效果。

自动化追踪分析工作流

LangSmith → 拉取 Traces
   ↓
并行错误分析进程 (syntax, logic, missing test)
   ↓
主代理汇总 → 生成工具箱调优建议
   ↓
更新系统提示 / 工具列表 / 中间件配置

该流程实现了 闭环优化，显著缩短了手动调参的迭代周期。

实际收益

通过上述三大维度的调优，得分从 52.8 → 66.5（提升 13.7 分），排名从 ≈30 → 5。
自动化追踪分析帮助定位了常见错误：逻辑分支遗漏、未遵循任务指令、测试缺失等。
资源分配策略使得在高难度任务上，规划阶段的成功率提升约 12%。

展望

工具箱工程为当前代理提供了可复制、可量化的性能提升路径。随着模型自身的自我调试能力逐步增强，这类外部辅助层可能会被模型内部机制所取代，但在可预见的未来，它仍是确保代理可靠运行的关键手段。