专题:moe

按该标签聚合的大模型资讯列表(自动分类与标签提取)。14 篇文章。

媒体AINews2026/04/02 13:445810
Gemma 4 开源 Apache 2.0 权重
支持多模态、函数调用、64k 上下文

Google DeepMind 于 2026 年发布 Gemma 4 系列模型,采用 Apache 2.0 开源许可证,提供 31 B dense、26 B MoE 以及两款面向移动/IoT 的轻量模型。全部模型原生支持文本、视觉、音频多模态,具备函数调用与结构化 JSON 输出,并将上下文窗口提升至 64 k token。性能基准显示 Gemma 4 在…

媒体AWS Machine Learning Blog2026/03/20 01:257820
NVIDIA Nemotron 3 Super 在 Amazon Bedrock 上推出
支持多语言和长上下文推理

NVIDIA Nemotron 3 Super 在 Amazon Bedrock 上发布,采用 MoE 架构,支持多语言和长上下文。其在多个基准测试中表现优异,具备高吞吐效率和准确性。开发者可通过 AWS CLI 和 SDK 调用模型,并利用其进行复杂任务如分布式限速服务设计。

官方Simon Willison2026/03/19 07:566840
苹果技术实现本地运行大模型
量化优化降低内存占用

Dan Woods利用苹果LLM in a Flash技术,在本地运行Qwen 397B模型,通过量化和专家混合架构优化内存使用。实验显示,4位量化可实现每秒4.36个令牌的推理速度,且输出质量与4位精度无明显差异。该成果对本地大模型部署具有重要参考价值。

媒体InfoQ 中文2026/02/28 02:005830

DeepSeek AI与清华、北大联合发布新论文,揭示了DeepSeek V4大型语言模型架构的重大改进。该架构融合了混合专家模型(MoE)和高效注意力机制,显著提升了模型在语言理解、代码生成等任务上的性能和推理速度,同时降低了计算成本。这一进展标志着LLM技术向更高效、更强大的方向迈进,为AI应用开辟新机遇。

媒体机器之心2026/02/20 21:126820

阿里云发布了参数量达3970亿的旗舰级多模态大模型Qwen3.5-397B-A17B。众智FlagOS社区迅速完成了该模型在沐曦、平头哥真武、英伟达等多种AI芯片上的适配与部署,并推出了vLLM多芯片插件,实现“发布即多芯”和“零改码”部署。FlagOS通过统一系统软件栈、高性能算子库、AI编译器和迁移工具,极大降低了大模型跨芯片落地的门槛,并鼓励开发者参…

媒体AWS Machine Learning Blog2026/02/12 03:3830

NVIDIA Nemotron 3 Nano 30B 是一款开源的30亿活跃参数混合专家(MoE)语言模型,现已在 Amazon SageMaker JumpStart 上线,支持一键部署。该模型采用 Transformer-Mamba 架构,在编码、数学与科学推理等任务中表现优异,上下文窗口达百万令牌,兼具高精度与高效率。其完全开放的权重与部署方案,便于…

媒体Gino Notes2025/04/06 08:007840

Meta 发布 Llama 4 系列多模态模型,包括 Scout、Maverick 和 Behemoth。采用 MoE 架构,显著提升性能、效率和上下文长度,Scout 支持 1000 万 token 上下文处理,Maverick 专注多模态理解与生成,Behemoth 作为教师模型。此次发布代表多模态 AI 技术的重要进展。