专题:mixture-of-experts

按该标签聚合的大模型资讯列表(自动分类与标签提取)。3 篇文章。

官方Simon Willison2026/03/24 13:097840
流式专家技术实现大模型在低内存设备运行
Qwen3.5-397B-A17B在MacBook Pro成功运行

流式专家技术通过按需加载专家权重,使超大规模语言模型能在内存有限的设备上运行。已实现Qwen3.5-397B-A17B和Kimi K2.5模型在MacBook Pro和iPhone上的运行,处理速度逐步提升。该技术为本地化部署和边缘计算提供了新思路,具有较高的实用价值。

媒体Hugging Face Blog2026/02/26 08:005730

Transformer架构引入了“专家混合”(Mixture of Experts, MoEs)机制,通过并行激活多个专家模型并动态分配权重,实现对输入数据的智能处理。该机制显著提升了模型在复杂NLP任务中的准确率和泛化能力,通过稀疏激活优化了计算效率。MoEs为Transformer的性能飞跃提供了新的架构思路。