专题：reasoning

按该标签聚合的大模型资讯列表（自动分类与标签提取）。共 7 篇文章。

Phi-4-Reasoning-Vision：高效多模态推理模型的训练经验

原文

官方Microsoft Research Blog2026/03/05 02:056820

• 多模态推理模型Phi-4-Reasoning-Vision发布

• 强调效率与性能的平衡设计

Phi-4-Reasoning-Vision是一款高效多模态推理模型，兼顾推理能力、处理效率与数据需求。其核心亮点在于创新的训练方法和架构设计，适用于数学、科学推理、计算机使用和图像描述等任务，提供了与其他模型的详细对比。

多模态模型推理开放权重模型训练效率提升

大型语言模型推理能力的局限与提升路径

原文

社区Hacker News2026/02/21 16:562530

本文概述了大型语言模型在推理任务中的主要缺陷，包括对复杂语义的误解、决策不合理以及对模糊信息的处理不足，尤其在道德和法律场景表现突出。为提升推理能力，研究者正通过增强上下文、引入更复杂的推理架构以及专门的训练任务等手段进行探索。尽管取得初步进展，LLM 的推理水平仍显著落后于人类，提示该领域仍面临重大技术挑战。

LLM模型推理上下文感知 AI 安全知识图谱

告别“只看结果”：Reagent 框架革新 Agent 训练，让模型学会“思考过程”

原文

媒体机器之心2026/02/20 22:404850

香港中文大学与美团联合提出的 Reagent 框架，旨在解决 Agent 训练中奖励信号稀疏的问题。该框架引入了 Agent-RRM 模型，能够对 Agent 的推理过程和工具使用进行细粒度评估，并生成过程分数和文本批评。通过将这些反馈整合到训练中（Reagent-C, Reagent-R, Reagent-U），Reagent 框架显著提升了 Agent…

自主智能体大语言模型训练强化学习推理

Google Gemini 3.1 Pro 正式发布：推理性能提升 2 倍，支持 1M 上下文与多模态

原文

媒体量子位2026/02/20 09:258750

Google 于 2026 年 2 月推出 Gemini 3.1 Pro，基于 Gemini 3 Pro 进行大幅升级：推理能力提升约 2 倍，支持 1 M token 长上下文，增强多模态生成与代码推理，并在保持原有计费的前提下实现约 10 倍成本下降。该模型已在 Gemini 应用、API 与 NotebookLM 中开放，适用于复杂可视化、长文档推理…

Gemini 模型 Google AI LLM模型多模态AI AI性能

Nanbeige4.1-3B：3B开源小模型，兼具强大推理、偏好对齐与Agent能力，支持256K长上下文

原文

社区Reddit r/LocalLLaMA2026/02/11 15:3830

Nanbeige LLM Lab 发布了开源3B模型Nanbeige4.1-3B，旨在验证小型通用模型在推理、偏好对齐和Agent行为方面的潜力。该模型在LiveCodeBench-Pro、IMO-Answer-Bench等复杂推理任务上表现出色，并通过单次前向传播实现连贯推理。在偏好对齐方面，Nanbeige4.1-3B在Arena-Hard-v2和Mu…

Nanbeige4.1-3B 开源模型推理自主智能体长上下文处理