Gemma 4系列:多模态视觉处理与参数效率突破
Simon Willison2026/04/03 02:28机翻/自动摘要/自动分类
2 阅读
内容评分
技术含量
9/10
营销水分
7/10
摘要
谷歌发布Gemma 4系列多模态LLM,包含2B/4B/31B及26B-A4B参数模型。核心亮点包括Per-Layer Embeddings架构提升参数效率、支持视频/音频/OCR等视觉任务处理,以及通过AI Studio提供API接口。测试显示20亿参数模型运行正常,但31B模型存在输出异常,作者演示了模型生成SVG图像的应用案例。
正文
谷歌DeepMind推出Gemma 4系列四款多模态大语言模型,采用Apache 2.0开源协议,参数规模涵盖2B/4B/31B及26B-A4B。文章重点解析其技术架构创新:通过Per-Layer Embeddings(每层嵌入)技术实现参数效率优化,为各解码层分配独立嵌入向量,虽增加嵌入表体积但提升设备运行效率。模型支持视频、音频及OCR等多模态处理,展现视觉理解能力。测试显示20亿参数模型运行正常,但31B模型在LM Studio中存在输出异常问题。谷歌通过AI Studio提供API接口,作者已将模型集成至-gemini项目并成功生成鹈鹕骑自行车SVG图像。