专题:multimodal

按该标签聚合的大模型资讯列表(自动分类与标签提取)。37 篇文章。

媒体Latent Space2026/04/04 06:036720
Gemma 4多模态模型发布
内存需求引发性能讨论

Google DeepMind推出Gemma 4多模态开源模型,涵盖文本、图像和音频处理能力,提供四种规模版本。其Dense与MoE架构优化了生成与推理任务,引发社区对性能与内存需求的讨论。同时,Hermes Agent因稳定性成为热门代理框架,微软企业级语音识别模型MAI-Transcribe-1也获得关注,凸显AI技术在研究与应用层面的双重进展。

媒体量子位2026/04/02 15:088910
Qwen3.6-Plus性能对标Claude
支持Vibe Coding与多模态生成

阿里发布Qwen3.6-Plus编程大模型,性能接近Claude,具备Vibe Coding、多模态理解及智能体能力。通过多个实测案例展示其在网页开发、3D场景生成和代码重构方面的强大表现,已上线阿里云平台,为开发者提供高效编程工具。

媒体AINews2026/04/02 13:445810
Gemma 4 开源 Apache 2.0 权重
支持多模态、函数调用、64k 上下文

Google DeepMind 于 2026 年发布 Gemma 4 系列模型,采用 Apache 2.0 开源许可证,提供 31 B dense、26 B MoE 以及两款面向移动/IoT 的轻量模型。全部模型原生支持文本、视觉、音频多模态,具备函数调用与结构化 JSON 输出,并将上下文窗口提升至 64 k token。性能基准显示 Gemma 4 在…

媒体量子位2026/03/31 16:227940
全模态理解与生成能力
实时视频编程与对话

Qwen3.5-Omni是阿里推出的全模态AI模型,具备215项SOTA成绩,支持音视频理解、实时编程和语义打断等创新功能。其Thinker-Talker架构和Hybrid-Attention MoE技术提升了处理效率和交互自然度,适用于视频会议、论文解读和网页设计等场景。

媒体Latent Space2026/03/27 09:357820
CLI工具提升开发者操作效率
语音模型与实时功能更新

多技术平台推出基于CLI的新工具,提升开发者效率。同时,语音模型、实时多模态检索、小型化模型及多代理系统等AI技术取得进展,涵盖基础设施、模型训练与应用优化等多个领域,对AI研究和开发具有重要参考价值。

媒体量子位2026/03/20 17:498990
人类与Agent协同创作
节点工作流+无限画布

LibTV是LiblibAI推出的AI视频创作工具,支持人类与Agent协同创作。通过无限画布、节点工作流和多种专业功能,实现从剧本到成片的一站式创作。AI Agent可一键生成视频,无需人工干预。该产品集成了顶级图像、视频和音频模型,提供高效、灵活的创作体验。

媒体爱范儿2026/03/19 16:127830
小米发布MiMo V2系列模型
MiMo-V2-Pro性能全球第八

小米发布MiMo V2系列模型,涵盖文本、多模态与语音合成。MiMo-V2-Pro性能优异,价格仅为同类产品五分之一,采用混合注意力架构和MTP技术。MiMo-V2-Omni具备全模态处理能力,MiMo-V2-TTS实现AI语音化。该系列标志着AI从对话向任务执行的进化,助力‘人车家全生态’整合。

媒体Latent Space2026/03/12 15:047830
Replit发布Agent 4,专注知识工作
集成多模型协作与上下文处理

Replit Agent 4是面向知识工作的AI助手,集成了多模型协作、上下文处理和推理优化等技术。文章介绍了其在提升生产力方面的应用,并探讨了AI代理相关的技术趋势,如NVIDIA Nemotron 3 Super、RSI和多模态模型等,具有较高的技术参考价值。

媒体量子位2026/03/11 17:308920
多模态数据统一嵌入空间
支持图像、视频、音频等混合输入

谷歌推出Gemini Embedding 2,首次将文本、图像、视频、音频和文档统一映射到同一语义空间,实现跨模态语义对齐。该模型支持多模态混合输入,提升AI Agent理解屏幕和环境的能力,技术上采用MRL方法,可动态调整向量维度,适用于RAG、语义搜索、情感分析等场景。

官方Microsoft Research Blog2026/03/05 02:056820
多模态推理模型Phi-4-Reasoning-Vision发布
强调效率与性能的平衡设计

Phi-4-Reasoning-Vision是一款高效多模态推理模型,兼顾推理能力、处理效率与数据需求。其核心亮点在于创新的训练方法和架构设计,适用于数学、科学推理、计算机使用和图像描述等任务,提供了与其他模型的详细对比。

媒体InfoQ 中文2026/03/03 19:266840

腾讯云 TDSQL Boundless 是一款融合 AI 技术的数据库系统,通过多模态数据处理能力提升数据价值挖掘效率。其核心亮点包括 AI 查询优化、自然语言交互和数据融合分析,适用于智能客服、数据分析等场景,具有较高的技术深度和应用潜力。

媒体AINews2026/03/03 13:447660
Gemini 3.1 Flash-Lite性能提升显著
GPT-5.3 Instant优化对话与幻觉

谷歌DeepMind发布Gemini 3.1 Flash-Lite,提升效率与多模态处理能力;OpenAI推出GPT-5.3 Instant,优化对话自然度与减少幻觉;Qwen因人员变动面临发展不确定性。文章聚焦AI模型的性能提升、产品更新及组织变化,反映行业技术与生态的动态演进。

媒体AINews2026/03/02 13:446830
Qwen 3.5支持多模态与轻量化部署
采用Gated DeltaNet混合注意力机制

阿里巴巴发布Qwen 3.5系列模型,涵盖0.8B至9B参数规模,支持多模态处理和扩展强化学习。模型采用Gated DeltaNet混合注意力机制,适用于边缘设备和轻量级应用。已在Ollama和LM Studio中集成,并在iPhone 17 Pro上实现6位精度运行。Codex 5.3在编码代理测试中表现良好,但系统稳定性仍是挑战。

媒体Lobsters AI2026/02/25 22:265640

大型音频语言模型(LALM)目前主要聚焦于语音转文字,虽在转录准确率上取得突破,却缺乏对语义、情感和上下文的深度理解。文章指出模型在倾听能力上的局限,并提出跨模态预训练和层次化记忆两大技术路线作为突破口,呼吁从单纯转录向真正的听懂与交互转变。