专题:multimodal-ai

按该标签聚合的大模型资讯列表(自动分类与标签提取)。13 篇文章。

官方Microsoft Research Blog2026/04/02 00:005820
ADeLe提出能力评估框架
88%模型表现预测准确率

ADeLe是微软等机构提出的新型AI评估框架,通过18项能力指标体系预测模型表现并解析性能差异。其核心价值在于突破传统基准测试局限,实现模型能力结构化分析与任务难度建模,实验验证预测准确率达88%。该方法可揭示现有基准测试缺陷,为AI系统评估提供标准化工具,具有推动评估体系革新的潜力。

媒体量子位2026/03/03 18:556530

OpenAI的GPT-5.4模型近期意外泄露,多处代码和界面线索指向其存在。传闻该模型将具备200万Tokens的超大上下文窗口,实现对长篇内容的持久记忆;同时,通过支持原始分辨率图像处理,有望提供像素级精准的视觉分析能力。泄露证据包括Codex代码拉取请求、GitHub提交记录及模型下拉选项。尽管存在炒作质疑,但这些迹象预示着OpenAI在长上下文和多模…

媒体量子位2026/02/27 16:046820

昆仑天工的国产视频模型SkyReels-V4在Artificial Analysis榜单中位列全球TOP2。它以音视频一体化的多模态生成与编辑为核心,采用双流MMDiT架构,支持文本、图像、视频、音频等多种输入。模型实现音画同步生成、专业级视频修复及全维度编辑,通过先进技术将AI视频创作推向高画质、高效率的全流程一体化。

媒体量子位2026/02/27 15:017820

国产大模型领域竞争白热化,阶跃星辰凭借超过50亿元的B+轮融资和新一代Agent基座模型Step 3.5 Flash,强势跻身第一梯队。Step 3.5 Flash在推理速度和数学能力上表现突出,尤其在AIME 2026测评中位列国产模型第一。阶跃星辰还聚焦“AI+终端”和“原生多模态”战略,其多模态技术已广泛应用于手机和智能座舱,装机量超4200万台。公…

媒体Latent Space2026/02/27 12:395740

Google DeepMind重磅推出最新图像生成模型Nano Banana 2(即Gemini 3.1 Flash Image Preview),被誉为当前最先进的图像生成工具。该模型以其卓越性能和极具竞争力的价格(每千张图片67美元,约为竞品一半)脱颖而出。技术亮点包括高字符一致性(6个字符)和出色的文本渲染能力。目前,Nano Banana 2已广泛…

社区Reddit r/LocalLLaMA2026/02/23 23:315420

本文探讨了AI语音处理领域一个关键问题:是否存在能同时执行文本转语音(TTS)、语音转文本(STS)及声音分离的集成模型。文章提及Seedance 2.0可能具备部分此类能力,支持文本/音频输入进行语音合成(说话、唱歌),并可训练自定义声音。尽管其具体实现为闭源,但该模型的多功能集成潜力引发了对AI语音模型未来发展方向的讨论,对开发者和研究人员具有参考价值。

媒体量子位2026/02/20 09:258750

Google 于 2026 年 2 月推出 Gemini 3.1 Pro,基于 Gemini 3 Pro 进行大幅升级:推理能力提升约 2 倍,支持 1 M token 长上下文,增强多模态生成与代码推理,并在保持原有计费的前提下实现约 10 倍成本下降。该模型已在 Gemini 应用、API 与 NotebookLM 中开放,适用于复杂可视化、长文档推理…

媒体量子位2026/02/15 19:588620

海淀区正成为全球AI创新高地,以字节跳动Seedance 2.0为代表的AI大模型集群集中爆发。Seedance 2.0凭借多模态输入和音画同步能力,在视频生成领域引发轰动。同时,月之暗面Kimi K2.5、生数科技Vidu Q3、快手可灵AI 3.0及智谱GLM-5等模型也相继发布,展现出多智能体协作、声画一体生成、智能镜头调度及SOTA编程能力。海淀区…

媒体量子位2026/02/14 16:416650

字节跳动正式发布豆包大模型2.0,历时21个月迭代。新版本在多模态理解、企业级Agent能力及数学与代码推理方面实现全面升级,并在多项基准测试中取得业界最高分。通过AI编程软件TRAE,模型能“零帧手搓”生成魔方求解器、3D游戏乃至《我的世界》高仿版。此次更新旨在从聊天转向行动,聚焦企业级应用和生产力工具,并显著提升Tokens效率,降低使用成本。

社区Reddit r/LocalLLaMA2026/02/12 20:5340

Vesta 是一款专为 macOS Apple Silicon 设计的原生 AI 应用,旨在提供一体化的本地与云端 AI 模型运行体验。它独特地集成了 Apple Intelligence、MLX、llama.cpp 等本地推理框架,并支持 OpenAI、HuggingFace 等 31+ 云端 API。核心亮点包括创新的自然语言接口(NLI)和智能体助手…

官方Microsoft Research Blog2026/01/28 01:007930
UniRG-CXR 采用强化学习优化临床指标
模型在跨机构和子群体中表现稳健

UniRG 是一种基于多模态强化学习的医学影像报告生成框架,通过结合监督微调与强化学习,提升了模型在临床环境中的泛化能力和可靠性。UniRG-CXR 在多个数据集和指标上表现领先,尤其在跨机构和纵向报告生成方面具有显著优势,为医疗AI的实用化提供了新方向。