Nanbeige4.1-3B:3B开源小模型,兼具强大推理、偏好对齐与Agent能力,支持256K长上下文
Reddit r/LocalLLaMA2026/02/11 15:38机翻/自动摘要/自动分类
3 阅读
摘要
Nanbeige LLM Lab 发布了开源3B模型Nanbeige4.1-3B,旨在验证小型通用模型在推理、偏好对齐和Agent行为方面的潜力。该模型在LiveCodeBench-Pro、IMO-Answer-Bench等复杂推理任务上表现出色,并通过单次前向传播实现连贯推理。在偏好对齐方面,Nanbeige4.1-3B在Arena-Hard-v2和Multi-Challenge基准测试中得分优于许多大型模型。此外,它原生支持Agent和深度搜索能力,在xBench-DeepSearch和GAIA等任务中表现强劲。模型还支持高达256k tokens的长上下文,能够进行数百次工具调用和10万+ tokens的单次复杂问题推理。模型权重已在Hugging Face上发布,为开发者提供了高性能的小型通用模型选择。
正文
Nanbeige Lab 近日发布了其最新开源3B模型 Nanbeige4.1-3B。此次发布旨在探索小型通用模型能否同时实现强大的推理能力、鲁棒的偏好对齐以及行为。
核心亮点:
- 强大推理能力: Nanbeige4.1-3B 能够通过单次前向传播实现持续且连贯的推理,解决复杂问题。在 LiveCodeBench-Pro、IMO-Answer-Bench 和 AIME 2026 I 等挑战性任务上取得了优异成绩。
- 鲁棒偏好对齐: 除了解决难题,该模型还展现出与人类偏好的高度一致性。在 Arena-Hard-v2 上获得 73.2 分,在 Multi-Challenge 上获得 52.21 分,表现优于许多大型模型。
- 3B 模型中的 Agent 与深度搜索能力: 除了聊天、编码和数学推理等任务,Nanbeige4.1-3B 还原生支持 能力,并具备深度搜索功能。在 xBench-DeepSearch 和 GAIA 等任务中表现出色。
- 长上下文与持续推理: 模型支持高达 256k tokens 的,能够进行数百次工具调用以实现深度搜索,并支持 10 万+ tokens 的单次复杂问题推理。
资源:
- 模型权重已在 Hugging Face 上发布:https://huggingface.co/Nanbeige/Nanbeige4.1-3B
- 技术报告即将发布。