推理模型仍是大型语言模型的延伸与进化原文媒体antirez2025/02/10 02:194840文章指出当前推理模型本质上仍是大型语言模型,其能力来源于无监督预训练和强化学习。通过DeepSeek R1和R1 Zero等案例,说明LLMs在结构和训练方法上已具备推理潜力,反驳了‘LLMs已到死胡同’的错误观点。大语言模型强化学习序列到序列转换模型架构无监督学习