Google DeepMind发布Gemma 4多模态开源模型，引发AI社区热议

Latent Space2026/04/04 06:03机翻/自动摘要/自动分类

内容评分

技术含量

7/10

营销水分

6/10

摘要

Google DeepMind推出Gemma 4多模态开源模型，涵盖文本、图像和音频处理能力，提供四种规模版本。其Dense与MoE架构优化了生成与推理任务，引发社区对性能与内存需求的讨论。同时，Hermes Agent因稳定性成为热门代理框架，微软企业级语音识别模型MAI-Transcribe-1也获得关注，凸显AI技术在研究与应用层面的双重进展。

正文

Google DeepMind推出的Gemma 4系列开源多模态模型近期引发广泛关注。该模型支持文本、图像和音频处理，最大上下文窗口达256K tokens，提供E2B、E4B、26B A4B和31B四种规模版本，覆盖多语言场景。模型采用Dense与Mixture-of-Experts（）架构，针对文本生成、编程和推理任务进行优化。开发者普遍关注其内存需求差异，其中31B版本需40GB VRAM才能高效运行。同时，Hermes 作为流行开源代理框架，因稳定性与复杂任务处理能力获得认可，Teknium对其内存管理系统进行了改进。在企业AI领域，微软MAI-Transcribe-1在语音识别方面表现突出，但部分编码代理的内存管理与速率限制仍存争议。

Google DeepMind发布Gemma 4多模态开源模型，引发AI社区热议

内容评分

摘要

正文

标签