专题：long-context

Ovis 系列多模态大模型（MLLM）发布最新版本 Ovis2.6-30B-A3B。该模型在 Ovis2.5 的基础上，将核心 LLM 骨干网络升级为稀疏混合专家（MoE）架构，旨在以更低的推理成本提供卓越的多模态性能。Ovis2.6-30B-A3B 在长上下文和高分辨率内容理解、基于主动图像分析的视觉推理以及信息密集型文档理解方面均有显著提升。据称，在 …

多模态大模型混合专家架构视觉推理长上下文处理模型优化

NVIDIA Nemotron 3 Nano 30B 登陆 SageMaker JumpStart：开源MoE大模型，30亿参数高效推理新标杆

原文

媒体AWS Machine Learning Blog2026/02/12 03:3830

NVIDIA Nemotron 3 Nano 30B 是一款开源的30亿活跃参数混合专家（MoE）语言模型，现已在 Amazon SageMaker JumpStart 上线，支持一键部署。该模型采用 Transformer-Mamba 架构，在编码、数学与科学推理等任务中表现优异，上下文窗口达百万令牌，兼具高精度与高效率。其完全开放的权重与部署方案，便于…

Mixture‑of‑Experts 架构 Nemotron模型 Amazon SageMaker 开源权重长上下文处理

Nanbeige4.1-3B：3B开源小模型，兼具强大推理、偏好对齐与Agent能力，支持256K长上下文

原文

社区Reddit r/LocalLLaMA2026/02/11 15:3830

Nanbeige LLM Lab 发布了开源3B模型Nanbeige4.1-3B，旨在验证小型通用模型在推理、偏好对齐和Agent行为方面的潜力。该模型在LiveCodeBench-Pro、IMO-Answer-Bench等复杂推理任务上表现出色，并通过单次前向传播实现连贯推理。在偏好对齐方面，Nanbeige4.1-3B在Arena-Hard-v2和Mu…

Nanbeige4.1-3B 开源模型推理自主智能体长上下文处理