Re-TRAC：让AI智能体“记住”探索经验，告别低效重复搜索

深度搜索智能体在处理复杂问题时，常陷入“重复犯错”的困境：即使多次尝试，也可能沿着错误的探索路径反复试探，导致效率低下和资源浪费。这是因为当前主流的 ReAct 框架采用线性推理，每次探索都像“从零开始”，无法有效利用过往经验。来自东南大学、微软亚洲研究院等机构的研究团队提出了创新的 Re-TRAC (REcursive TRAjectory Compression) 框架。Re-TRAC 的核心在于让 AI 智能体能够“记住”并传递每次探索的经验，将搜索过程转变为渐进式学习。Re-TRAC 的关键在于，在每次探索轨迹结束时生成一个结构化的状态表示，包含：<ul><li>答案与分析结论：为后续推理提供锚点。</li><li>证据库与来源验证：避免冗余工具调用和重复检查。</li><li>不确定项与待探索方向：指导下一轮的探索重点，补全搜索空间。</li></ul>这个结构化状态会被整合到下一轮探索的输入中，确保智能体能清晰了解已验证内容、待解决问题及探索方向。Re-TRAC 在多个具有挑战性的搜索基准测试中展现出卓越性能。例如，仅 4B 参数的 RE-TRAC-4B 模型在 XBench 和 GAIA 等基准上超越了更大规模的模型。而 RE-TRAC-30B 模型在多个基准上击败了闭源大模型，证明了轨迹压缩和经验传递对于提升小模型性能的巨大潜力。更值得关注的是，Re-TRAC 还可以作为无需训练的测试扩展应用于现有前沿模型，显著提升其性能。在 o4-mini、o3、GPT-5 等模型上，Re-TRAC 均带来了可观的准确率提升。Re-TRAC 的训练方法也颇具匠心，通过后训练的监督微调（SFT）方法，利用合成数据构建了强大的搜索智能体，其性能甚至可媲美或超越大规模强化学习训练的模型。总而言之，Re-TRAC 框架通过引入跨轮次的轨迹压缩和结构化状态表示，优化了 ReAct 的搜索范式，使 AI 智能体能够像人类一样复用经验、总结教训。这不仅显著提升了搜索效率和性能，更为资源受限场景下的“小模型做大事”提供了切实可行的路径。

Re-TRAC：让AI智能体“记住”探索经验，告别低效重复搜索

内容评分

摘要

正文

标签