AI推理的“石头思考”时代：从AlphaGo到DeepSeek-R1，重塑生产力与权力结构

文章将人生比作MMO游戏，认为自ChatGPT问世以来，游戏规则已然改变。人工智能正从模仿语言的统计机器，进化为理解并操纵逻辑的思考系统。新一代推理模型不再是简单的词汇拼贴，而是能在生成前停下来思考，评估因果、权衡可能性。

Eric Jang指出，AI真正的突破在于系统性思考能力的实现。当推理被自动化、规模化并作为可调度算力时，人类社会将面临生产力、组织形态乃至权力结构的重构。

机器已擅长编程与思考

作者以自身使用Claude Code的经历为例，说明AI已能独立完成编程任务，包括基础设施代码编写、研究设想提出、实验设计与执行，甚至生成实验报告。现代编程不仅能在预设超参数空间内搜索，更能直接修改代码，反思实验结果，提出理论并进行验证，已演化为“自动化科学家”。从架构改进、网页浏览器实现，到证明数学难题，甚至优化自身CUDA kernel，AI展现出强大的通用思考能力。

作者强调，进步的速度是关键。过去十年，曾被认为计算上不可行的任务（如围棋、蛋白质折叠、音乐视频生成、自动数学证明）如今已在博士生可负担的算力范围内。AI初创公司正利用探索新物理规律和投资策略。作者预言，未来几年，编程助手将强大到能轻松重构整个SaaS系统。

什么是推理？

文章区分了演绎推理（从前提必然得出结论）和归纳推理（做出概率性判断）。早期符号推理系统因现实世界的混乱和不确定性而受限。纯粹的演绎推理在复杂问题（如围棋）中因状态空间爆炸而难以规模化。归纳推理常用贝叶斯公式，但精确推断是NP-hard问题，且大量小概率相乘易导致结果模糊。神经网络通过端到端概率建模，在一次前向传播中近似完成联合推断。

AlphaGo的启示

AlphaGo结合了演绎搜索和深度学习归纳推理，但其能力仅限于计算胜率和最优招式，依赖于固定的规则集，难以直接应用于语言等模糊领域。

LLM提示词时代的终结与推理训练的兴起

2022年“思维链”提示词提升了的推理能力，但后续的提示词工程（）被证明无法从根本上提升模型智能。瓶颈在于训练更好的推理电路，而非激活现有电路的方法。过程监督（Process Supervision）曾尝试通过专家评估训练评分器，但难以规模化。2024年初的树搜索结合（如Yao等人的工作）也未成为主流，因为逻辑树本身并非最大瓶颈。

DeepSeek-R1时代：推理的范式转变

DeepSeek-R1-Zero的核心逻辑是：在强大的基座模型上，使用在线策略强化学习（On-policy RL）优化基于规则的奖励（如AIME数学题、编程测试），并设定格式奖励确保推理过程遵循特定标签。通过多阶段训练（RL -> -> RL -> -> RL），R1模型在保持非推理任务高性能的同时，使推理轨迹更易理解。

作者推测，早期结果监督（Outcome Supervision）未能奏效的原因在于：基座模型不够强大、未采用同策略RL、未使用基于规则的奖励，以及推理算力不足。算法在弱初始状态下失败，不代表强初始状态下也如此。

推理的未来：自动化研究与算力需求

推理能力强大且灵活，能处理不确定性，并实现细微或跨度的逻辑飞跃。未来，过程奖励模型（PRM）和基于推理序列的教师强制（Teacher-forcing）可能卷土重来。序列化计算可能出现在模型前向传播的各层之间，模糊前向、反向传播、自回归解码和离散扩散的界限。

自动化研究将成为高产实验室的标准工作流，研究员将依赖AI助手进行大规模并行调查。非AI领域研究员也将受益于巨量推理算力。代码库可能集成/teach命令，帮助开发者理解设计思路。作者预测，未来几年对推理算力的需求将是天文数字，远超当前想象，数字愿望的满足将引爆对算力的巨大需求，007工作制可能成为新常态。

AI推理的“石头思考”时代：从AlphaGo到DeepSeek-R1，重塑生产力与权力结构

内容评分

摘要

正文

标签