专题：multimodal-ai

OpenAI的GPT-5.4模型近期意外泄露，多处代码和界面线索指向其存在。传闻该模型将具备200万Tokens的超大上下文窗口，实现对长篇内容的持久记忆；同时，通过支持原始分辨率图像处理，有望提供像素级精准的视觉分析能力。泄露证据包括Codex代码拉取请求、GitHub提交记录及模型下拉选项。尽管存在炒作质疑，但这些迹象预示着OpenAI在长上下文和多模…

GPT-5.4模型 OpenAI LLM模型上下文窗口多模态AI

国产视频模型SkyReels-V4跻身全球榜TOP2：实现音视频一体化多模态生成与编辑

原文

媒体量子位2026/02/27 16:046820

昆仑天工的国产视频模型SkyReels-V4在Artificial Analysis榜单中位列全球TOP2。它以音视频一体化的多模态生成与编辑为核心，采用双流MMDiT架构，支持文本、图像、视频、音频等多种输入。模型实现音画同步生成、专业级视频修复及全维度编辑，通过先进技术将AI视频创作推向高画质、高效率的全流程一体化。

视频生成多模态AI 音视频合成昆仑天工 AI编辑能力

阶跃星辰：50亿融资加持，Step 3.5 Flash模型领衔，强势跻身国产大模型“新六小虎”第一梯队

原文

媒体量子位2026/02/27 15:017820

国产大模型领域竞争白热化，阶跃星辰凭借超过50亿元的B+轮融资和新一代Agent基座模型Step 3.5 Flash，强势跻身第一梯队。Step 3.5 Flash在推理速度和数学能力上表现突出，尤其在AIME 2026测评中位列国产模型第一。阶跃星辰还聚焦“AI+终端”和“原生多模态”战略，其多模态技术已广泛应用于手机和智能座舱，装机量超4200万台。公…

AI模型 LLM模型多模态AI 自主智能体硬件集成

Google DeepMind发布Gemini 3.1 (Nano Banana 2) 图像生成模型：性能卓越，价格减半，已集成多款产品

原文

媒体Latent Space2026/02/27 12:395740

Google DeepMind重磅推出最新图像生成模型Nano Banana 2（即Gemini 3.1 Flash Image Preview），被誉为当前最先进的图像生成工具。该模型以其卓越性能和极具竞争力的价格（每千张图片67美元，约为竞品一半）脱颖而出。技术亮点包括高字符一致性（6个字符）和出色的文本渲染能力。目前，Nano Banana 2已广泛…

AI图像生成 Gemini 模型谷歌DeepMind 多模态AI 模型性能

多模态语音AI模型探索：Seedance 2.0能否整合TTS、STS与声音分离？

原文

社区Reddit r/LocalLLaMA2026/02/23 23:315420

本文探讨了AI语音处理领域一个关键问题：是否存在能同时执行文本转语音（TTS）、语音转文本（STS）及声音分离的集成模型。文章提及Seedance 2.0可能具备部分此类能力，支持文本/音频输入进行语音合成（说话、唱歌），并可训练自定义声音。尽管其具体实现为闭源，但该模型的多功能集成潜力引发了对AI语音模型未来发展方向的讨论，对开发者和研究人员具有参考价值。

文本转语音语音转文本声音分离多模态AI Seedance

Google Gemini 3.1 Pro 正式发布：推理性能提升 2 倍，支持 1M 上下文与多模态

原文

媒体量子位2026/02/20 09:258750

Google 于 2026 年 2 月推出 Gemini 3.1 Pro，基于 Gemini 3 Pro 进行大幅升级：推理能力提升约 2 倍，支持 1 M token 长上下文，增强多模态生成与代码推理，并在保持原有计费的前提下实现约 10 倍成本下降。该模型已在 Gemini 应用、API 与 NotebookLM 中开放，适用于复杂可视化、长文档推理…

Gemini 模型 Google AI LLM模型多模态AI AI性能

海淀AI大模型集群爆发：Seedance 2.0引领视频生成新浪潮，赋能全球视听产业

原文

媒体量子位2026/02/15 19:588620

海淀区正成为全球AI创新高地，以字节跳动Seedance 2.0为代表的AI大模型集群集中爆发。Seedance 2.0凭借多模态输入和音画同步能力，在视频生成领域引发轰动。同时，月之暗面Kimi K2.5、生数科技Vidu Q3、快手可灵AI 3.0及智谱GLM-5等模型也相继发布，展现出多智能体协作、声画一体生成、智能镜头调度及SOTA编程能力。海淀区…

视频生成多模态AI 大语言模型海淀AI AI产业生态

字节跳动豆包大模型2.0发布：多模态、Agent与代码能力全面升级

原文

媒体量子位2026/02/14 16:416650

字节跳动正式发布豆包大模型2.0，历时21个月迭代。新版本在多模态理解、企业级Agent能力及数学与代码推理方面实现全面升级，并在多项基准测试中取得业界最高分。通过AI编程软件TRAE，模型能“零帧手搓”生成魔方求解器、3D游戏乃至《我的世界》高仿版。此次更新旨在从聊天转向行动，聚焦企业级应用和生产力工具，并显著提升Tokens效率，降低使用成本。

多模态理解企业级Agent 代码推理视觉模型 AI应用

Vesta：原生macOS AI应用，融合Apple Intelligence、MLX、llama.cpp及云API，实现多模型本地/云端一体化运行

原文

社区Reddit r/LocalLLaMA2026/02/12 20:5340

Vesta 是一款专为 macOS Apple Silicon 设计的原生 AI 应用，旨在提供一体化的本地与云端 AI 模型运行体验。它独特地集成了 Apple Intelligence、MLX、llama.cpp 等本地推理框架，并支持 OpenAI、HuggingFace 等 31+ 云端 API。核心亮点包括创新的自然语言接口（NLI）和智能体助手…

MacOS Apple Silicon 本地推理 AI代理多模态AI

UniRG：多模态强化学习在医学影像报告生成中的突破性应用

原文

官方Microsoft Research Blog2026/01/28 01:007930

• UniRG-CXR 采用强化学习优化临床指标

• 模型在跨机构和子群体中表现稳健

UniRG 是一种基于多模态强化学习的医学影像报告生成框架，通过结合监督微调与强化学习，提升了模型在临床环境中的泛化能力和可靠性。UniRG-CXR 在多个数据集和指标上表现领先，尤其在跨机构和纵向报告生成方面具有显著优势，为医疗AI的实用化提供了新方向。

临床报告生成深度学习医疗人工智能多模态模型 LLM模型