专题：moe

按该标签聚合的大模型资讯列表（自动分类与标签提取）。共 14 篇文章。

Google DeepMind 发布 Gemma 4：Apache 2.0 开源权重·多模态·边缘部署

媒体AINews2026/04/02 13:445810

• Gemma 4 开源 Apache 2.0 权重

• 支持多模态、函数调用、64k 上下文

Google DeepMind 于 2026 年发布 Gemma 4 系列模型，采用 Apache 2.0 开源许可证，提供 31 B dense、26 B MoE 以及两款面向移动/IoT 的轻量模型。全部模型原生支持文本、视觉、音频多模态，具备函数调用与结构化 JSON 输出，并将上下文窗口提升至 64 k token。性能基准显示 Gemma 4 在…

多模态模型开放权重模型模型优化推理能力情感计算研究

NVIDIA Nemotron 3 Super 在 Amazon Bedrock 上正式发布

原文

媒体AWS Machine Learning Blog2026/03/20 01:257820

• NVIDIA Nemotron 3 Super 在 Amazon Bedrock 上推出

• 支持多语言和长上下文推理

NVIDIA Nemotron 3 Super 在 Amazon Bedrock 上发布，采用 MoE 架构，支持多语言和长上下文。其在多个基准测试中表现优异，具备高吞吐效率和准确性。开发者可通过 AWS CLI 和 SDK 调用模型，并利用其进行复杂任务如分布式限速服务设计。

NVIDIA Amazon Bedrock Mixture‑of‑Experts 架构 Transformer 架构大语言模型

苹果LLM in a Flash技术助力本地运行Qwen 397B模型

原文

官方Simon Willison2026/03/19 07:566840

• 苹果技术实现本地运行大模型

• 量化优化降低内存占用

Dan Woods利用苹果LLM in a Flash技术，在本地运行Qwen 397B模型，通过量化和专家混合架构优化内存使用。实验显示，4位量化可实现每秒4.36个令牌的推理速度，且输出质量与4位精度无明显差异。该成果对本地大模型部署具有重要参考价值。

LLM in a Flash Mixture‑of‑Experts 架构量化优化 MLX框架内存优化

YuanLab开源万亿参数多模态大模型Yuan3.0 Ultra

原文

媒体量子位2026/03/05 21:046920

YuanLab开源万亿参数多模态大模型Yuan3.0 Ultra，采用MoE架构与LAEP算法提升效率，支持文档理解、RAG、表格分析等企业任务，为OpenClaw等智能体提供核心能力。

OpenClaw架构 Mixture‑of‑Experts 架构检索增强生成层适应专家剪枝多模态建模

YuanLab开源万亿参数多模态大模型Yuan3.0 Ultra，强化企业级AI应用

原文

媒体量子位2026/03/05 19:196950

YuanLab开源万亿参数多模态大模型Yuan3.0 Ultra，采用MoE架构与LAEP算法优化效率，支持企业级文档理解、RAG、数据分析等任务，推动Agent落地。

Mixture‑of‑Experts 架构检索增强生成层适应专家剪枝多模态建模企业Agent应用

DeepSeek V4架构揭秘：清华北大联合发布LLM性能飞跃新论文

原文

媒体InfoQ 中文2026/02/28 02:005830

DeepSeek AI与清华、北大联合发布新论文，揭示了DeepSeek V4大型语言模型架构的重大改进。该架构融合了混合专家模型（MoE）和高效注意力机制，显著提升了模型在语言理解、代码生成等任务上的性能和推理速度，同时降低了计算成本。这一进展标志着LLM技术向更高效、更强大的方向迈进，为AI应用开辟新机遇。

大语言模型 DeepSeek Transformer 架构 Mixture‑of‑Experts 架构 AI研究

vLLM助力高效服务多个微调模型：Multi-LoRA技术详解

原文

官方AWS Machine Learning Blog2026/02/26 04:566850

本文提出Multi-LoRA技术，通过在模型层插入适配器实现多模型共享GPU资源，显著提升效率。适用于MoE模型如GPT-OSS、Qwen3-MoE等，已在vLLM 0.15.0中实现，并在Amazon SageMaker AI和Bedrock上部署。性能提升包括OTPS提高19%和TTFT缩短8%。

VLLM 多LoRA Mixture‑of‑Experts 架构 Amazon SageMaker Amazon Bedrock

探索将 GPT‑5.3 核心能力蒸馏至 MoE 架构的 GPT‑OSS 实践

原文

社区Reddit r/LocalLLaMA2026/02/22 20:004460

作者探讨将 GPT‑5.3 的核心编码能力通过知识蒸馏迁移到基于 MoE 的开源模型 GPT‑OSS，以期在 Strix Halo 上实现更快、更轻量的推理。文章提出技术路线并提醒可能的政策风险，呼吁社区分享已有的 MoE 蒸馏实现。

知识蒸馏 Mixture‑of‑Experts 架构 GPT-OSS模型模型压缩

阿里云通义千问Qwen3.5-397B模型实现“发布即多芯”，FlagOS赋能跨芯片适配与零改码部署

原文

媒体机器之心2026/02/20 21:126820

阿里云发布了参数量达3970亿的旗舰级多模态大模型Qwen3.5-397B-A17B。众智FlagOS社区迅速完成了该模型在沐曦、平头哥真武、英伟达等多种AI芯片上的适配与部署，并推出了vLLM多芯片插件，实现“发布即多芯”和“零改码”部署。FlagOS通过统一系统软件栈、高性能算子库、AI编译器和迁移工具，极大降低了大模型跨芯片落地的门槛，并鼓励开发者参…

通义千问大语言模型多模态大模型 Mixture‑of‑Experts 架构跨芯片适配

NVIDIA Nemotron 3 Nano 30B 登陆 SageMaker JumpStart：开源MoE大模型，30亿参数高效推理新标杆

原文

媒体AWS Machine Learning Blog2026/02/12 03:3830

NVIDIA Nemotron 3 Nano 30B 是一款开源的30亿活跃参数混合专家（MoE）语言模型，现已在 Amazon SageMaker JumpStart 上线，支持一键部署。该模型采用 Transformer-Mamba 架构，在编码、数学与科学推理等任务中表现优异，上下文窗口达百万令牌，兼具高精度与高效率。其完全开放的权重与部署方案，便于…

Mixture‑of‑Experts 架构 Nemotron模型 Amazon SageMaker 开源权重长上下文处理

2026年2月AI技术动态：模型创新与社区讨论

原文

媒体Latent Space2026/02/10 12:335740

2026年2月初AI技术动态涵盖模型创新、社区讨论及技术评测。OpenAI通过广告推广AI产品化能力，Opus 4.6和Claude Opus 4.6引发关注，RLM和MoE技术被探讨其效率与扩展性。模型评测为性能提供参考，Discord等平台成为技术交流的重要渠道。

OpenAI 递归语言模型 Mixture‑of‑Experts 架构模型基准测试 AI社区

美团发布轻量化MoE模型LongCat-Flash-Lite：参数量685亿，推理仅激活29-45亿参数

原文

官方美团技术团队2026/02/10 08:007840

美团发布685亿参数的轻量化MoE模型LongCat-Flash-Lite，推理仅激活29-45亿参数。该模型在智能体和代码处理任务中表现优异，通过嵌入扩展实现高效进化，是AI模型优化的重要进展。

Mixture‑of‑Experts 架构 N-gram模型模型轻量化嵌入层扩展代码理解与生成

上下文图谱：AI编码代理的新方向与多模态模型进展

原文

媒体AINews2026/02/03 13:446830

本文介绍了多款AI模型的最新进展，包括GLM-OCR、Qwen3-Coder-Next和SERA-14B，以及上下文图谱这一新兴概念。这些模型在多模态识别、编码任务和长上下文处理方面表现出色，为AI代理的可追溯性和性能提升提供了新方向。

光学字符识别 Mixture‑of‑Experts 架构上下文图谱编码代理 AI模型

Meta 发布 Llama 4 系列多模态模型，MoE 架构引领新突破

原文

媒体Gino Notes2025/04/06 08:007840

Meta 发布 Llama 4 系列多模态模型，包括 Scout、Maverick 和 Behemoth。采用 MoE 架构，显著提升性能、效率和上下文长度，Scout 支持 1000 万 token 上下文处理，Maverick 专注多模态理解与生成，Behemoth 作为教师模型。此次发布代表多模态 AI 技术的重要进展。

Llama 4 Mixture‑of‑Experts 架构多模态模型开源项目上下文长度