Google DeepMind 于 2026 年发布 Gemma 4 系列模型,采用 Apache 2.0 开源许可证,提供 31 B dense、26 B MoE 以及两款面向移动/IoT 的轻量模型。全部模型原生支持文本、视觉、音频多模态,具备函数调用与结构化 JSON 输出,并将上下文窗口提升至 64 k token。性能基准显示 Gemma 4 在…
专题:moe
按该标签聚合的大模型资讯列表(自动分类与标签提取)。共 14 篇文章。
NVIDIA Nemotron 3 Super 在 Amazon Bedrock 上发布,采用 MoE 架构,支持多语言和长上下文。其在多个基准测试中表现优异,具备高吞吐效率和准确性。开发者可通过 AWS CLI 和 SDK 调用模型,并利用其进行复杂任务如分布式限速服务设计。
Dan Woods利用苹果LLM in a Flash技术,在本地运行Qwen 397B模型,通过量化和专家混合架构优化内存使用。实验显示,4位量化可实现每秒4.36个令牌的推理速度,且输出质量与4位精度无明显差异。该成果对本地大模型部署具有重要参考价值。
YuanLab开源万亿参数多模态大模型Yuan3.0 Ultra,采用MoE架构与LAEP算法提升效率,支持文档理解、RAG、表格分析等企业任务,为OpenClaw等智能体提供核心能力。
YuanLab开源万亿参数多模态大模型Yuan3.0 Ultra,采用MoE架构与LAEP算法优化效率,支持企业级文档理解、RAG、数据分析等任务,推动Agent落地。
DeepSeek AI与清华、北大联合发布新论文,揭示了DeepSeek V4大型语言模型架构的重大改进。该架构融合了混合专家模型(MoE)和高效注意力机制,显著提升了模型在语言理解、代码生成等任务上的性能和推理速度,同时降低了计算成本。这一进展标志着LLM技术向更高效、更强大的方向迈进,为AI应用开辟新机遇。
本文提出Multi-LoRA技术,通过在模型层插入适配器实现多模型共享GPU资源,显著提升效率。适用于MoE模型如GPT-OSS、Qwen3-MoE等,已在vLLM 0.15.0中实现,并在Amazon SageMaker AI和Bedrock上部署。性能提升包括OTPS提高19%和TTFT缩短8%。
作者探讨将 GPT‑5.3 的核心编码能力通过知识蒸馏迁移到基于 MoE 的开源模型 GPT‑OSS,以期在 Strix Halo 上实现更快、更轻量的推理。文章提出技术路线并提醒可能的政策风险,呼吁社区分享已有的 MoE 蒸馏实现。
阿里云发布了参数量达3970亿的旗舰级多模态大模型Qwen3.5-397B-A17B。众智FlagOS社区迅速完成了该模型在沐曦、平头哥真武、英伟达等多种AI芯片上的适配与部署,并推出了vLLM多芯片插件,实现“发布即多芯”和“零改码”部署。FlagOS通过统一系统软件栈、高性能算子库、AI编译器和迁移工具,极大降低了大模型跨芯片落地的门槛,并鼓励开发者参…
NVIDIA Nemotron 3 Nano 30B 是一款开源的30亿活跃参数混合专家(MoE)语言模型,现已在 Amazon SageMaker JumpStart 上线,支持一键部署。该模型采用 Transformer-Mamba 架构,在编码、数学与科学推理等任务中表现优异,上下文窗口达百万令牌,兼具高精度与高效率。其完全开放的权重与部署方案,便于…
2026年2月初AI技术动态涵盖模型创新、社区讨论及技术评测。OpenAI通过广告推广AI产品化能力,Opus 4.6和Claude Opus 4.6引发关注,RLM和MoE技术被探讨其效率与扩展性。模型评测为性能提供参考,Discord等平台成为技术交流的重要渠道。
美团发布685亿参数的轻量化MoE模型LongCat-Flash-Lite,推理仅激活29-45亿参数。该模型在智能体和代码处理任务中表现优异,通过嵌入扩展实现高效进化,是AI模型优化的重要进展。
本文介绍了多款AI模型的最新进展,包括GLM-OCR、Qwen3-Coder-Next和SERA-14B,以及上下文图谱这一新兴概念。这些模型在多模态识别、编码任务和长上下文处理方面表现出色,为AI代理的可追溯性和性能提升提供了新方向。
Meta 发布 Llama 4 系列多模态模型,包括 Scout、Maverick 和 Behemoth。采用 MoE 架构,显著提升性能、效率和上下文长度,Scout 支持 1000 万 token 上下文处理,Maverick 专注多模态理解与生成,Behemoth 作为教师模型。此次发布代表多模态 AI 技术的重要进展。