AI推理的“石头思考”时代:从AlphaGo到DeepSeek-R1,重塑生产力与权力结构
内容评分
摘要
本文深入探讨了人工智能推理能力的飞跃,从早期模仿语言到如今的系统性思考。作者以Eric Jang的观点为引,阐述了AI在编程、逻辑推断方面的显著进步,并以AlphaGo和DeepSeek-R1模型为例,解析了推理能力的演进路径和训练方法。文章强调,AI不再是简单的概率拼贴,而是能进行演绎和归纳推理的“思考机器”。这种能力的自动化和规模化将深刻重构生产力、组织形态乃至权力结构,并预示着对计算资源需求的指数级增长。
正文
文章将人生比作MMO游戏,认为自ChatGPT问世以来,游戏规则已然改变。人工智能正从模仿语言的统计机器,进化为理解并操纵逻辑的思考系统。新一代推理模型不再是简单的词汇拼贴,而是能在生成前停下来思考,评估因果、权衡可能性。
Eric Jang指出,AI真正的突破在于系统性思考能力的实现。当推理被自动化、规模化并作为可调度算力时,人类社会将面临生产力、组织形态乃至权力结构的重构。
机器已擅长编程与思考
作者以自身使用Claude Code的经历为例,说明AI已能独立完成编程任务,包括基础设施代码编写、研究设想提出、实验设计与执行,甚至生成实验报告。现代编程不仅能在预设超参数空间内搜索,更能直接修改代码,反思实验结果,提出理论并进行验证,已演化为“自动化科学家”。从架构改进、网页浏览器实现,到证明数学难题,甚至优化自身CUDA kernel,AI展现出强大的通用思考能力。
作者强调,进步的速度是关键。过去十年,曾被认为计算上不可行的任务(如围棋、蛋白质折叠、音乐视频生成、自动数学证明)如今已在博士生可负担的算力范围内。AI初创公司正利用探索新物理规律和投资策略。作者预言,未来几年,编程助手将强大到能轻松重构整个SaaS系统。
什么是推理?
文章区分了演绎推理(从前提必然得出结论)和归纳推理(做出概率性判断)。早期符号推理系统因现实世界的混乱和不确定性而受限。纯粹的演绎推理在复杂问题(如围棋)中因状态空间爆炸而难以规模化。归纳推理常用贝叶斯公式,但精确推断是NP-hard问题,且大量小概率相乘易导致结果模糊。神经网络通过端到端概率建模,在一次前向传播中近似完成联合推断。
AlphaGo的启示
AlphaGo结合了演绎搜索和深度学习归纳推理,但其能力仅限于计算胜率和最优招式,依赖于固定的规则集,难以直接应用于语言等模糊领域。
LLM提示词时代的终结与推理训练的兴起
2022年“思维链”提示词提升了的推理能力,但后续的提示词工程()被证明无法从根本上提升模型智能。瓶颈在于训练更好的推理电路,而非激活现有电路的方法。过程监督(Process Supervision)曾尝试通过专家评估训练评分器,但难以规模化。2024年初的树搜索结合(如Yao等人的工作)也未成为主流,因为逻辑树本身并非最大瓶颈。
DeepSeek-R1时代:推理的范式转变
DeepSeek-R1-Zero的核心逻辑是:在强大的基座模型上,使用在线策略强化学习(On-policy RL)优化基于规则的奖励(如AIME数学题、编程测试),并设定格式奖励确保推理过程遵循特定标签。通过多阶段训练(RL -> -> RL -> -> RL),R1模型在保持非推理任务高性能的同时,使推理轨迹更易理解。
作者推测,早期结果监督(Outcome Supervision)未能奏效的原因在于:基座模型不够强大、未采用同策略RL、未使用基于规则的奖励,以及推理算力不足。算法在弱初始状态下失败,不代表强初始状态下也如此。
推理的未来:自动化研究与算力需求
推理能力强大且灵活,能处理不确定性,并实现细微或跨度的逻辑飞跃。未来,过程奖励模型(PRM)和基于推理序列的教师强制(Teacher-forcing)可能卷土重来。序列化计算可能出现在模型前向传播的各层之间,模糊前向、反向传播、自回归解码和离散扩散的界限。
自动化研究将成为高产实验室的标准工作流,研究员将依赖AI助手进行大规模并行调查。非AI领域研究员也将受益于巨量推理算力。代码库可能集成/teach命令,帮助开发者理解设计思路。作者预测,未来几年对推理算力的需求将是天文数字,远超当前想象,数字愿望的满足将引爆对算力的巨大需求,007工作制可能成为新常态。