专题:reasoning

按该标签聚合的大模型资讯列表(自动分类与标签提取)。7 篇文章。

官方Microsoft Research Blog2026/03/05 02:056820
多模态推理模型Phi-4-Reasoning-Vision发布
强调效率与性能的平衡设计

Phi-4-Reasoning-Vision是一款高效多模态推理模型,兼顾推理能力、处理效率与数据需求。其核心亮点在于创新的训练方法和架构设计,适用于数学、科学推理、计算机使用和图像描述等任务,提供了与其他模型的详细对比。

社区Hacker News2026/02/21 16:562530

本文概述了大型语言模型在推理任务中的主要缺陷,包括对复杂语义的误解、决策不合理以及对模糊信息的处理不足,尤其在道德和法律场景表现突出。为提升推理能力,研究者正通过增强上下文、引入更复杂的推理架构以及专门的训练任务等手段进行探索。尽管取得初步进展,LLM 的推理水平仍显著落后于人类,提示该领域仍面临重大技术挑战。

媒体机器之心2026/02/20 22:404850

香港中文大学与美团联合提出的 Reagent 框架,旨在解决 Agent 训练中奖励信号稀疏的问题。该框架引入了 Agent-RRM 模型,能够对 Agent 的推理过程和工具使用进行细粒度评估,并生成过程分数和文本批评。通过将这些反馈整合到训练中(Reagent-C, Reagent-R, Reagent-U),Reagent 框架显著提升了 Agent…

媒体量子位2026/02/20 09:258750

Google 于 2026 年 2 月推出 Gemini 3.1 Pro,基于 Gemini 3 Pro 进行大幅升级:推理能力提升约 2 倍,支持 1 M token 长上下文,增强多模态生成与代码推理,并在保持原有计费的前提下实现约 10 倍成本下降。该模型已在 Gemini 应用、API 与 NotebookLM 中开放,适用于复杂可视化、长文档推理…

社区Reddit r/LocalLLaMA2026/02/11 15:3830

Nanbeige LLM Lab 发布了开源3B模型Nanbeige4.1-3B,旨在验证小型通用模型在推理、偏好对齐和Agent行为方面的潜力。该模型在LiveCodeBench-Pro、IMO-Answer-Bench等复杂推理任务上表现出色,并通过单次前向传播实现连贯推理。在偏好对齐方面,Nanbeige4.1-3B在Arena-Hard-v2和Mu…

媒体Ahead of AI2025/07/01 19:116820
按主题分类LLM研究论文
涵盖推理模型与强化学习方法

本文整理了2025年上半年与LLM相关的研究论文,按主题分类,重点聚焦推理模型、强化学习和多模态模型等方向。内容涵盖训练策略、推理优化方法及数据集研究,具有较高的技术参考价值,并附带夏季学习资源。