GLM-5重磅发布:开源模型实现24小时自主编程,700次工具调用、800次上下文切换,性能比肩Claude Opus 4.5
内容评分
摘要
智谱AI正式发布GLM-5开源模型,标志着开源AI进入长任务时代。该模型展现出惊人的自主编程能力,能连续运行代码超24小时,完成700次工具调用和800次上下文切换,从零手搓GBA模拟器。其在权威榜单Artificial Analysis和Vending Bench 2中表现出色,编程能力与Claude Opus 4.5比肩,并在经营能力上取得开源第一。GLM-5的发布赋能开发者,预示着AI将从助手转变为独立工程师,对SaaS行业带来深远影响。
正文
智谱AI正式发布GLM-5模型,其强大能力远超此前神秘模型Pony Alpha引发的热度。GLM-5的问世,标志着开源AI正式迈入长任务时代。该模型展现出惊人的自主编程能力,能够连续运行代码超过24小时,期间进行了700次工具调用和800次上下文切换,并最终成功地用JavaScript从零开发了一个Game Boy Advance(GBA)模拟器。
开发GBA模拟器对AI而言是一项极具挑战性的工程任务,因为它涉及500多条CPU指令集、复杂的内存分页机制、音频子系统及图形渲染时序。任何微小的指令错误或文件写入偏差都可能导致项目崩溃。更值得注意的是,GLM-5是在无并行处理、无任何参考代码、且关闭网络搜索的严苛条件下完成此任务的。尽管如此,GLM-5仍展现出卓越的稳定性:其工具调用在700次操作中始终保持语法、格式和准确度的一致性;即使上下文切换了800次,模型依然能持久遵循Meta-Prompt的规范和流程;它能稳定判断何时进行测试、记录信息和切换策略;并且在每次上下文清空后,能从笔记和文件中准确恢复工作状态。
GLM-5的强大能力引发了广泛关注,有网友惊叹其甚至能制作精美的CAD模型。在权威榜单Artificial Analysis中,GLM-5的综合表现已达到与闭源模型Claude Opus 4.5比肩的水平。在业内主流基准测试中,其编程能力也与Claude Opus 4.5对齐。尤其在衡量模型经营能力的Vending Bench 2测试中,GLM-5更是取得了开源模型中的第一名。作为首个达到Opus级别性能的开源模型,GLM-5的发布被视为打破了闭源模型的“护城河”,赢得了开源社区的广泛赞誉。
在实际测试中,通过在Claude Code中调用GLM-5 API,模型成功从零生成了一个功能完整的3D版大富翁游戏,展现了其卓越的逻辑闭环能力。通过更精细的Prompt,甚至可以生成带有特定主题(如“龙虾版3D大富翁”)的游戏。此外,已有用户利用GLM-5开发出“学术版抖音”并提交至苹果App Store,目前已有超过10款基于GLM-5开发的APP准备上架。
进一步的测试还包括GLM-5对复杂物理规律描述的理解能力。面对一段详细描述创建“玻璃十二面体”及其内外层光影效果的Prompt(要求使用three.js),GLM-5精准捕捉关键词,生成了一个光影交错的十二面体HTML文件。GLM-5还能胜任全栈开发任务,例如制作一个完整且设计感强的电商网站,甚至有用户用它开发出了3D交互版《我的世界》。
GLM-5的发布及其在实测中的表现,预示着开源正从“智能助手”向“独立工程师”实现质的飞跃。过去,AI需要用户频繁调试Prompt;如今,GLM-5只需一个目标,便能自主完成复杂任务。
从宏观层面看,这可能对SaaS行业带来一场变革。此前,闭源模型如Claude Opus展现的长任务能力已引发市场恐慌,导致金融数据服务商股价下跌,投资者担忧AI能直接生成CRM系统,冲击传统年费软件市场。尽管有观点认为AI将增强现有工具,但GLM-5的实测表明,行业重塑可能已在进行。更关键的是,这种曾是闭源巨头独有的能力,现在通过GLM-5的开源,已向所有开发者开放。这24小时不间断的自主编程,或许只是开源模型未来更长、更快、更好、更强发展的一个起点。
值得一提的是,智谱AI自GLM 4.5版本起便深耕AI编程领域,其国产AI编程解决方案在国内外市场均反响热烈。此次GLM-5发布后,智谱采取了限售策略,引发了海外开发者“求”资源的现象。
GLM-5项目已在GitHub、Hugging Face和ModelScope上发布。