Google DeepMind推出Gemma 4多模态开源模型,涵盖文本、图像和音频处理能力,提供四种规模版本。其Dense与MoE架构优化了生成与推理任务,引发社区对性能与内存需求的讨论。同时,Hermes Agent因稳定性成为热门代理框架,微软企业级语音识别模型MAI-Transcribe-1也获得关注,凸显AI技术在研究与应用层面的双重进展。
专题:multimodal
按该标签聚合的大模型资讯列表(自动分类与标签提取)。共 37 篇文章。
阿里发布Qwen3.6-Plus编程大模型,性能接近Claude,具备Vibe Coding、多模态理解及智能体能力。通过多个实测案例展示其在网页开发、3D场景生成和代码重构方面的强大表现,已上线阿里云平台,为开发者提供高效编程工具。
Google DeepMind 于 2026 年发布 Gemma 4 系列模型,采用 Apache 2.0 开源许可证,提供 31 B dense、26 B MoE 以及两款面向移动/IoT 的轻量模型。全部模型原生支持文本、视觉、音频多模态,具备函数调用与结构化 JSON 输出,并将上下文窗口提升至 64 k token。性能基准显示 Gemma 4 在…
Qwen3.5-Omni是阿里推出的全模态AI模型,具备215项SOTA成绩,支持音视频理解、实时编程和语义打断等创新功能。其Thinker-Talker架构和Hybrid-Attention MoE技术提升了处理效率和交互自然度,适用于视频会议、论文解读和网页设计等场景。
本文探讨了 AI Agent 架构中数据库的应用变化,分析了其在多模态数据处理、实时推理和动态知识更新中的关键作用,并提出了未来数据库架构的发展方向,具有较高的技术参考价值。
多技术平台推出基于CLI的新工具,提升开发者效率。同时,语音模型、实时多模态检索、小型化模型及多代理系统等AI技术取得进展,涵盖基础设施、模型训练与应用优化等多个领域,对AI研究和开发具有重要参考价值。
LibTV是LiblibAI推出的AI视频创作工具,支持人类与Agent协同创作。通过无限画布、节点工作流和多种专业功能,实现从剧本到成片的一站式创作。AI Agent可一键生成视频,无需人工干预。该产品集成了顶级图像、视频和音频模型,提供高效、灵活的创作体验。
V-RAG是一种结合检索增强与视频生成的创新技术,通过图像数据库提升视频生成的准确性与可控性,适用于教育、营销等场景,具备高效、可扩展和可追溯等核心优势。
本文介绍了一种构建大规模多模态记忆平台的技术方案,涵盖数据处理、特征融合与模型优化。核心亮点在于分布式架构与记忆增强机制,适用于需要多模态理解的AI应用。
小米发布MiMo V2系列模型,涵盖文本、多模态与语音合成。MiMo-V2-Pro性能优异,价格仅为同类产品五分之一,采用混合注意力架构和MTP技术。MiMo-V2-Omni具备全模态处理能力,MiMo-V2-TTS实现AI语音化。该系列标志着AI从对话向任务执行的进化,助力‘人车家全生态’整合。
谷歌推出首款基于Gemini架构的Embedding模型,支持交错输入,提升多模态处理能力。该模型在复杂任务中表现灵活高效,可能影响传统AI开发架构,引发开发者社区高度关注。
Replit Agent 4是面向知识工作的AI助手,集成了多模型协作、上下文处理和推理优化等技术。文章介绍了其在提升生产力方面的应用,并探讨了AI代理相关的技术趋势,如NVIDIA Nemotron 3 Super、RSI和多模态模型等,具有较高的技术参考价值。
豆包AI在春晚等大型活动中应用多模态交互技术,实现自然对话与个性化推荐。其核心亮点包括对话系统优化、实时数据处理和情感计算,展示了AI在实际场景中的强大能力。
谷歌推出Gemini Embedding 2,首次将文本、图像、视频、音频和文档统一映射到同一语义空间,实现跨模态语义对齐。该模型支持多模态混合输入,提升AI Agent理解屏幕和环境的能力,技术上采用MRL方法,可动态调整向量维度,适用于RAG、语义搜索、情感分析等场景。
腾讯开源万亿级多模态大模型Yuan3.0 Ultra,支持文本、图像、语音等多模态输入,性能优异,特别强调其在企业级Agent开发中的应用价值,推动AI技术落地。
Phi-4-Reasoning-Vision是一款高效多模态推理模型,兼顾推理能力、处理效率与数据需求。其核心亮点在于创新的训练方法和架构设计,适用于数学、科学推理、计算机使用和图像描述等任务,提供了与其他模型的详细对比。
腾讯云 TDSQL Boundless 是一款融合 AI 技术的数据库系统,通过多模态数据处理能力提升数据价值挖掘效率。其核心亮点包括 AI 查询优化、自然语言交互和数据融合分析,适用于智能客服、数据分析等场景,具有较高的技术深度和应用潜力。
谷歌DeepMind发布Gemini 3.1 Flash-Lite,提升效率与多模态处理能力;OpenAI推出GPT-5.3 Instant,优化对话自然度与减少幻觉;Qwen因人员变动面临发展不确定性。文章聚焦AI模型的性能提升、产品更新及组织变化,反映行业技术与生态的动态演进。
阿里巴巴发布Qwen 3.5系列模型,涵盖0.8B至9B参数规模,支持多模态处理和扩展强化学习。模型采用Gated DeltaNet混合注意力机制,适用于边缘设备和轻量级应用。已在Ollama和LM Studio中集成,并在iPhone 17 Pro上实现6位精度运行。Codex 5.3在编码代理测试中表现良好,但系统稳定性仍是挑战。
大型音频语言模型(LALM)目前主要聚焦于语音转文字,虽在转录准确率上取得突破,却缺乏对语义、情感和上下文的深度理解。文章指出模型在倾听能力上的局限,并提出跨模态预训练和层次化记忆两大技术路线作为突破口,呼吁从单纯转录向真正的听懂与交互转变。