Phi-4-Reasoning-Vision是一款高效多模态推理模型,兼顾推理能力、处理效率与数据需求。其核心亮点在于创新的训练方法和架构设计,适用于数学、科学推理、计算机使用和图像描述等任务,提供了与其他模型的详细对比。
专题:reasoning
按该标签聚合的大模型资讯列表(自动分类与标签提取)。共 7 篇文章。
本文概述了大型语言模型在推理任务中的主要缺陷,包括对复杂语义的误解、决策不合理以及对模糊信息的处理不足,尤其在道德和法律场景表现突出。为提升推理能力,研究者正通过增强上下文、引入更复杂的推理架构以及专门的训练任务等手段进行探索。尽管取得初步进展,LLM 的推理水平仍显著落后于人类,提示该领域仍面临重大技术挑战。
香港中文大学与美团联合提出的 Reagent 框架,旨在解决 Agent 训练中奖励信号稀疏的问题。该框架引入了 Agent-RRM 模型,能够对 Agent 的推理过程和工具使用进行细粒度评估,并生成过程分数和文本批评。通过将这些反馈整合到训练中(Reagent-C, Reagent-R, Reagent-U),Reagent 框架显著提升了 Agent…
Google 于 2026 年 2 月推出 Gemini 3.1 Pro,基于 Gemini 3 Pro 进行大幅升级:推理能力提升约 2 倍,支持 1 M token 长上下文,增强多模态生成与代码推理,并在保持原有计费的前提下实现约 10 倍成本下降。该模型已在 Gemini 应用、API 与 NotebookLM 中开放,适用于复杂可视化、长文档推理…
Nanbeige LLM Lab 发布了开源3B模型Nanbeige4.1-3B,旨在验证小型通用模型在推理、偏好对齐和Agent行为方面的潜力。该模型在LiveCodeBench-Pro、IMO-Answer-Bench等复杂推理任务上表现出色,并通过单次前向传播实现连贯推理。在偏好对齐方面,Nanbeige4.1-3B在Arena-Hard-v2和Mu…
本文整理了2025年上半年与LLM相关的研究论文,按主题分类,重点聚焦推理模型、强化学习和多模态模型等方向。内容涵盖训练策略、推理优化方法及数据集研究,具有较高的技术参考价值,并附带夏季学习资源。
本书第一章介绍了LLMs中的推理概念,探讨了推理与模式匹配的区别,以及提升推理能力的关键方法,如性能优化和强化学习。内容为理解LLM推理机制提供了基础,后续章节将通过编码示例展示实际应用。