专题：multimodal

按该标签聚合的大模型资讯列表（自动分类与标签提取）。共 37 篇文章。

Google DeepMind发布Gemma 4多模态开源模型，引发AI社区热议

媒体Latent Space2026/04/04 06:036720

• Gemma 4多模态模型发布

• 内存需求引发性能讨论

Google DeepMind推出Gemma 4多模态开源模型，涵盖文本、图像和音频处理能力，提供四种规模版本。其Dense与MoE架构优化了生成与推理任务，引发社区对性能与内存需求的讨论。同时，Hermes Agent因稳定性成为热门代理框架，微软企业级语音识别模型MAI-Transcribe-1也获得关注，凸显AI技术在研究与应用层面的双重进展。

开源项目多模态模型模型架构内存优化企业AI

阿里发布Qwen3.6-Plus编程大模型，性能对标Claude

原文

媒体量子位2026/04/02 15:088910

• Qwen3.6-Plus性能对标Claude

• 支持Vibe Coding与多模态生成

阿里发布Qwen3.6-Plus编程大模型，性能接近Claude，具备Vibe Coding、多模态理解及智能体能力。通过多个实测案例展示其在网页开发、3D场景生成和代码重构方面的强大表现，已上线阿里云平台，为开发者提供高效编程工具。

通义千问 Vibe Coding编程模式多模态模型自主智能体编程模型

Google DeepMind 发布 Gemma 4：Apache 2.0 开源权重·多模态·边缘部署

原文

媒体AINews2026/04/02 13:445810

• Gemma 4 开源 Apache 2.0 权重

• 支持多模态、函数调用、64k 上下文

Google DeepMind 于 2026 年发布 Gemma 4 系列模型，采用 Apache 2.0 开源许可证，提供 31 B dense、26 B MoE 以及两款面向移动/IoT 的轻量模型。全部模型原生支持文本、视觉、音频多模态，具备函数调用与结构化 JSON 输出，并将上下文窗口提升至 64 k token。性能基准显示 Gemma 4 在…

多模态模型开放权重模型模型优化推理能力情感计算研究

Qwen3.5-Omni实测：215项SOTA，全模态交互与实时编程能力

原文

媒体量子位2026/03/31 16:227940

• 全模态理解与生成能力

• 实时视频编程与对话

Qwen3.5-Omni是阿里推出的全模态AI模型，具备215项SOTA成绩，支持音视频理解、实时编程和语义打断等创新功能。其Thinker-Talker架构和Hybrid-Attention MoE技术提升了处理效率和交互自然度，适用于视频会议、论文解读和网页设计等场景。

多模态模型实时编程混合注意力 SOTA性能自适应速率交错对齐

AI Agent 架构设计中的数据库应用与演进

原文

媒体InfoQ 中文2026/03/28 00:145840

• 数据库在 AI Agent 中角色发生转变

• 支持多模态与实时数据处理

本文探讨了 AI Agent 架构中数据库的应用变化，分析了其在多模态数据处理、实时推理和动态知识更新中的关键作用，并提出了未来数据库架构的发展方向，具有较高的技术参考价值。

AI代理数据库架构设计实时处理多模态模型

AI领域CLI工具与多模态技术新进展

原文

媒体Latent Space2026/03/27 09:357820

• CLI工具提升开发者操作效率

• 语音模型与实时功能更新

多技术平台推出基于CLI的新工具，提升开发者效率。同时，语音模型、实时多模态检索、小型化模型及多代理系统等AI技术取得进展，涵盖基础设施、模型训练与应用优化等多个领域，对AI研究和开发具有重要参考价值。

命令行工具文本转语音多模态模型模型优化研究工具

LibTV：AI视频创作新范式，人与Agent协同创作

原文

媒体量子位2026/03/20 17:498990

• 人类与Agent协同创作

• 节点工作流+无限画布

LibTV是LiblibAI推出的AI视频创作工具，支持人类与Agent协同创作。通过无限画布、节点工作流和多种专业功能，实现从剧本到成片的一站式创作。AI Agent可一键生成视频，无需人工干预。该产品集成了顶级图像、视频和音频模型，提供高效、灵活的创作体验。

LiblibAI OpenClaw AI视频创作自主智能体节点工作流

V-RAG：视频生成的检索增强新范式

原文

媒体AWS Machine Learning Blog2026/03/20 00:457820

• V-RAG结合检索与视频生成技术

• 无需模型训练，依赖图像数据库

V-RAG是一种结合检索增强与视频生成的创新技术，通过图像数据库提升视频生成的准确性与可控性，适用于教育、营销等场景，具备高效、可扩展和可追溯等核心优势。

视频生成检索增强生成 AI/ML工具 AWS 多模态模型

构建大规模多模态记忆平台的技术实践

原文

媒体InfoQ 中文2026/03/19 18:055830

• 构建多模态记忆平台架构

• 多模态数据预处理与融合

本文介绍了一种构建大规模多模态记忆平台的技术方案，涵盖数据处理、特征融合与模型优化。核心亮点在于分布式架构与记忆增强机制，适用于需要多模态理解的AI应用。

多模态模型记忆增强分布式系统特征融合 AI架构

小米发布MiMo V2系列大模型，涵盖文本、多模态与语音合成

原文

媒体爱范儿2026/03/19 16:127830

• 小米发布MiMo V2系列模型

• MiMo-V2-Pro性能全球第八

小米发布MiMo V2系列模型，涵盖文本、多模态与语音合成。MiMo-V2-Pro性能优异，价格仅为同类产品五分之一，采用混合注意力架构和MTP技术。MiMo-V2-Omni具备全模态处理能力，MiMo-V2-TTS实现AI语音化。该系列标志着AI从对话向任务执行的进化，助力‘人车家全生态’整合。

多模态模型混合注意力架构文本转语音大语言模型 API接口

谷歌发布首款基于Gemini架构的Embedding模型，支持交错输入

原文

媒体InfoQ 中文2026/03/12 17:498720

• 谷歌发布Gemini架构Embedding模型

• 支持交错输入处理多模态数据

谷歌推出首款基于Gemini架构的Embedding模型，支持交错输入，提升多模态处理能力。该模型在复杂任务中表现灵活高效，可能影响传统AI开发架构，引发开发者社区高度关注。

嵌入向量 Gemini 模型多模态模型 AI模型输入处理

Replit Agent 4：知识工作领域的AI助手

原文

媒体Latent Space2026/03/12 15:047830

• Replit发布Agent 4，专注知识工作

• 集成多模型协作与上下文处理

Replit Agent 4是面向知识工作的AI助手，集成了多模型协作、上下文处理和推理优化等技术。文章介绍了其在提升生产力方面的应用，并探讨了AI代理相关的技术趋势，如NVIDIA Nemotron 3 Super、RSI和多模态模型等，具有较高的技术参考价值。

自主智能体知识工作多模态模型递归自我改进开源项目

豆包AI在春晚等大型活动中的互动技术解析

原文

媒体InfoQ 中文2026/03/11 23:137820

• 豆包AI用于春晚等大型活动互动

• 支持多模态与实时数据处理

豆包AI在春晚等大型活动中应用多模态交互技术，实现自然对话与个性化推荐。其核心亮点包括对话系统优化、实时数据处理和情感计算，展示了AI在实际场景中的强大能力。

多模态模型对话系统实时处理个性化情感计算

谷歌发布Gemini Embedding 2：多模态数据统一嵌入空间

原文

媒体量子位2026/03/11 17:308920

• 多模态数据统一嵌入空间

• 支持图像、视频、音频等混合输入

谷歌推出Gemini Embedding 2，首次将文本、图像、视频、音频和文档统一映射到同一语义空间，实现跨模态语义对齐。该模型支持多模态混合输入，提升AI Agent理解屏幕和环境的能力，技术上采用MRL方法，可动态调整向量维度，适用于RAG、语义搜索、情感分析等场景。

多模态模型嵌入向量 Gemini 模型 Matryoshka Representation Learning 智能体建设

腾讯发布万亿级多模态大模型Yuan3.0 Ultra，开源推动企业级Agent落地

原文

媒体InfoQ 中文2026/03/06 01:117850

腾讯开源万亿级多模态大模型Yuan3.0 Ultra，支持文本、图像、语音等多模态输入，性能优异，特别强调其在企业级Agent开发中的应用价值，推动AI技术落地。

多模态模型大语言模型自主智能体开源环境 AI应用

Phi-4-Reasoning-Vision：高效多模态推理模型的训练经验

原文

官方Microsoft Research Blog2026/03/05 02:056820

• 多模态推理模型Phi-4-Reasoning-Vision发布

• 强调效率与性能的平衡设计

Phi-4-Reasoning-Vision是一款高效多模态推理模型，兼顾推理能力、处理效率与数据需求。其核心亮点在于创新的训练方法和架构设计，适用于数学、科学推理、计算机使用和图像描述等任务，提供了与其他模型的详细对比。

多模态模型推理开放权重模型训练效率提升

腾讯云 TDSQL Boundless：AI赋能数据库的多模态数据处理新范式

原文

媒体InfoQ 中文2026/03/03 19:266840

腾讯云 TDSQL Boundless 是一款融合 AI 技术的数据库系统，通过多模态数据处理能力提升数据价值挖掘效率。其核心亮点包括 AI 查询优化、自然语言交互和数据融合分析，适用于智能客服、数据分析等场景，具有较高的技术深度和应用潜力。

AI数据库多模态模型查询优化自然语言处理数据融合

AI模型新动态：Gemini 3.1 Flash-Lite、GPT-5.3 Instant与Qwen的不确定性

原文

媒体AINews2026/03/03 13:447660

• Gemini 3.1 Flash-Lite性能提升显著

• GPT-5.3 Instant优化对话与幻觉

谷歌DeepMind发布Gemini 3.1 Flash-Lite，提升效率与多模态处理能力；OpenAI推出GPT-5.3 Instant，优化对话自然度与减少幻觉；Qwen因人员变动面临发展不确定性。文章聚焦AI模型的性能提升、产品更新及组织变化，反映行业技术与生态的动态演进。

GPT-5.3 Gemini 3.1 OpenClaw AI模型 API集成

阿里巴巴发布Qwen 3.5系列模型：多模态与轻量化部署

原文

媒体AINews2026/03/02 13:446830

• Qwen 3.5支持多模态与轻量化部署

• 采用Gated DeltaNet混合注意力机制

阿里巴巴发布Qwen 3.5系列模型，涵盖0.8B至9B参数规模，支持多模态处理和扩展强化学习。模型采用Gated DeltaNet混合注意力机制，适用于边缘设备和轻量级应用。已在Ollama和LM Studio中集成，并在iPhone 17 Pro上实现6位精度运行。Codex 5.3在编码代理测试中表现良好，但系统稳定性仍是挑战。

多模态模型强化学习注意力机制本地部署 AI基础设施

大型音频语言模型仍在“转录”而非真正“倾听”——现状与挑战

原文

媒体Lobsters AI2026/02/25 22:265640

大型音频语言模型（LALM）目前主要聚焦于语音转文字，虽在转录准确率上取得突破，却缺乏对语义、情感和上下文的深度理解。文章指出模型在倾听能力上的局限，并提出跨模态预训练和层次化记忆两大技术路线作为突破口，呼吁从单纯转录向真正的听懂与交互转变。

音频语言模型语音识别多模态模型语义理解长上下文处理