Google DeepMind发布Gemma 4多模态开源模型,引发AI社区热议
Latent Space2026/04/04 06:03机翻/自动摘要/自动分类
2 阅读
内容评分
技术含量
7/10
营销水分
6/10
摘要
Google DeepMind推出Gemma 4多模态开源模型,涵盖文本、图像和音频处理能力,提供四种规模版本。其Dense与MoE架构优化了生成与推理任务,引发社区对性能与内存需求的讨论。同时,Hermes Agent因稳定性成为热门代理框架,微软企业级语音识别模型MAI-Transcribe-1也获得关注,凸显AI技术在研究与应用层面的双重进展。
正文
Google DeepMind推出的Gemma 4系列开源多模态模型近期引发广泛关注。该模型支持文本、图像和音频处理,最大上下文窗口达256K tokens,提供E2B、E4B、26B A4B和31B四种规模版本,覆盖多语言场景。模型采用Dense与Mixture-of-Experts()架构,针对文本生成、编程和推理任务进行优化。开发者普遍关注其内存需求差异,其中31B版本需40GB VRAM才能高效运行。同时,Hermes 作为流行开源代理框架,因稳定性与复杂任务处理能力获得认可,Teknium对其内存管理系统进行了改进。在企业AI领域,微软MAI-Transcribe-1在语音识别方面表现突出,但部分编码代理的内存管理与速率限制仍存争议。