GLM-5重磅发布：开源模型实现24小时自主编程，700次工具调用、800次上下文切换，性能比肩Claude Opus 4.5

智谱AI正式发布GLM-5模型，其强大能力远超此前神秘模型Pony Alpha引发的热度。GLM-5的问世，标志着开源AI正式迈入长任务时代。该模型展现出惊人的自主编程能力，能够连续运行代码超过24小时，期间进行了700次工具调用和800次上下文切换，并最终成功地用JavaScript从零开发了一个Game Boy Advance（GBA）模拟器。

开发GBA模拟器对AI而言是一项极具挑战性的工程任务，因为它涉及500多条CPU指令集、复杂的内存分页机制、音频子系统及图形渲染时序。任何微小的指令错误或文件写入偏差都可能导致项目崩溃。更值得注意的是，GLM-5是在无并行处理、无任何参考代码、且关闭网络搜索的严苛条件下完成此任务的。尽管如此，GLM-5仍展现出卓越的稳定性：其工具调用在700次操作中始终保持语法、格式和准确度的一致性；即使上下文切换了800次，模型依然能持久遵循Meta-Prompt的规范和流程；它能稳定判断何时进行测试、记录信息和切换策略；并且在每次上下文清空后，能从笔记和文件中准确恢复工作状态。

GLM-5的强大能力引发了广泛关注，有网友惊叹其甚至能制作精美的CAD模型。在权威榜单Artificial Analysis中，GLM-5的综合表现已达到与闭源模型Claude Opus 4.5比肩的水平。在业内主流基准测试中，其编程能力也与Claude Opus 4.5对齐。尤其在衡量模型经营能力的Vending Bench 2测试中，GLM-5更是取得了开源模型中的第一名。作为首个达到Opus级别性能的开源模型，GLM-5的发布被视为打破了闭源模型的“护城河”，赢得了开源社区的广泛赞誉。

在实际测试中，通过在Claude Code中调用GLM-5 API，模型成功从零生成了一个功能完整的3D版大富翁游戏，展现了其卓越的逻辑闭环能力。通过更精细的Prompt，甚至可以生成带有特定主题（如“龙虾版3D大富翁”）的游戏。此外，已有用户利用GLM-5开发出“学术版抖音”并提交至苹果App Store，目前已有超过10款基于GLM-5开发的APP准备上架。

进一步的测试还包括GLM-5对复杂物理规律描述的理解能力。面对一段详细描述创建“玻璃十二面体”及其内外层光影效果的Prompt（要求使用three.js），GLM-5精准捕捉关键词，生成了一个光影交错的十二面体HTML文件。GLM-5还能胜任全栈开发任务，例如制作一个完整且设计感强的电商网站，甚至有用户用它开发出了3D交互版《我的世界》。

GLM-5的发布及其在实测中的表现，预示着开源正从“智能助手”向“独立工程师”实现质的飞跃。过去，AI需要用户频繁调试Prompt；如今，GLM-5只需一个目标，便能自主完成复杂任务。

从宏观层面看，这可能对SaaS行业带来一场变革。此前，闭源模型如Claude Opus展现的长任务能力已引发市场恐慌，导致金融数据服务商股价下跌，投资者担忧AI能直接生成CRM系统，冲击传统年费软件市场。尽管有观点认为AI将增强现有工具，但GLM-5的实测表明，行业重塑可能已在进行。更关键的是，这种曾是闭源巨头独有的能力，现在通过GLM-5的开源，已向所有开发者开放。这24小时不间断的自主编程，或许只是开源模型未来更长、更快、更好、更强发展的一个起点。

值得一提的是，智谱AI自GLM 4.5版本起便深耕AI编程领域，其国产AI编程解决方案在国内外市场均反响热烈。此次GLM-5发布后，智谱采取了限售策略，引发了海外开发者“求”资源的现象。

GLM-5项目已在GitHub、Hugging Face和ModelScope上发布。

GLM-5重磅发布：开源模型实现24小时自主编程，700次工具调用、800次上下文切换，性能比肩Claude Opus 4.5

内容评分

摘要

正文

标签