ADeLe是微软等机构提出的新型AI评估框架,通过18项能力指标体系预测模型表现并解析性能差异。其核心价值在于突破传统基准测试局限,实现模型能力结构化分析与任务难度建模,实验验证预测准确率达88%。该方法可揭示现有基准测试缺陷,为AI系统评估提供标准化工具,具有推动评估体系革新的潜力。
专题:multimodal-ai
按该标签聚合的大模型资讯列表(自动分类与标签提取)。共 13 篇文章。
OpenAI收购Astral,强化技术整合与产品开发能力。Astral在AI模型优化和多模态处理方面有显著技术积累,此次合作或推动AI商业化进程。
本课程提供12小时的深度学习内容,涵盖PEFT、RLHF、DPO等关键技术,以及Unsloth、Axolotl等工具,帮助开发者高效微调大型语言模型并应用于企业级多模态场景。
OpenAI的GPT-5.4模型近期意外泄露,多处代码和界面线索指向其存在。传闻该模型将具备200万Tokens的超大上下文窗口,实现对长篇内容的持久记忆;同时,通过支持原始分辨率图像处理,有望提供像素级精准的视觉分析能力。泄露证据包括Codex代码拉取请求、GitHub提交记录及模型下拉选项。尽管存在炒作质疑,但这些迹象预示着OpenAI在长上下文和多模…
昆仑天工的国产视频模型SkyReels-V4在Artificial Analysis榜单中位列全球TOP2。它以音视频一体化的多模态生成与编辑为核心,采用双流MMDiT架构,支持文本、图像、视频、音频等多种输入。模型实现音画同步生成、专业级视频修复及全维度编辑,通过先进技术将AI视频创作推向高画质、高效率的全流程一体化。
国产大模型领域竞争白热化,阶跃星辰凭借超过50亿元的B+轮融资和新一代Agent基座模型Step 3.5 Flash,强势跻身第一梯队。Step 3.5 Flash在推理速度和数学能力上表现突出,尤其在AIME 2026测评中位列国产模型第一。阶跃星辰还聚焦“AI+终端”和“原生多模态”战略,其多模态技术已广泛应用于手机和智能座舱,装机量超4200万台。公…
Google DeepMind重磅推出最新图像生成模型Nano Banana 2(即Gemini 3.1 Flash Image Preview),被誉为当前最先进的图像生成工具。该模型以其卓越性能和极具竞争力的价格(每千张图片67美元,约为竞品一半)脱颖而出。技术亮点包括高字符一致性(6个字符)和出色的文本渲染能力。目前,Nano Banana 2已广泛…
本文探讨了AI语音处理领域一个关键问题:是否存在能同时执行文本转语音(TTS)、语音转文本(STS)及声音分离的集成模型。文章提及Seedance 2.0可能具备部分此类能力,支持文本/音频输入进行语音合成(说话、唱歌),并可训练自定义声音。尽管其具体实现为闭源,但该模型的多功能集成潜力引发了对AI语音模型未来发展方向的讨论,对开发者和研究人员具有参考价值。
Google 于 2026 年 2 月推出 Gemini 3.1 Pro,基于 Gemini 3 Pro 进行大幅升级:推理能力提升约 2 倍,支持 1 M token 长上下文,增强多模态生成与代码推理,并在保持原有计费的前提下实现约 10 倍成本下降。该模型已在 Gemini 应用、API 与 NotebookLM 中开放,适用于复杂可视化、长文档推理…
海淀区正成为全球AI创新高地,以字节跳动Seedance 2.0为代表的AI大模型集群集中爆发。Seedance 2.0凭借多模态输入和音画同步能力,在视频生成领域引发轰动。同时,月之暗面Kimi K2.5、生数科技Vidu Q3、快手可灵AI 3.0及智谱GLM-5等模型也相继发布,展现出多智能体协作、声画一体生成、智能镜头调度及SOTA编程能力。海淀区…
字节跳动正式发布豆包大模型2.0,历时21个月迭代。新版本在多模态理解、企业级Agent能力及数学与代码推理方面实现全面升级,并在多项基准测试中取得业界最高分。通过AI编程软件TRAE,模型能“零帧手搓”生成魔方求解器、3D游戏乃至《我的世界》高仿版。此次更新旨在从聊天转向行动,聚焦企业级应用和生产力工具,并显著提升Tokens效率,降低使用成本。
Vesta 是一款专为 macOS Apple Silicon 设计的原生 AI 应用,旨在提供一体化的本地与云端 AI 模型运行体验。它独特地集成了 Apple Intelligence、MLX、llama.cpp 等本地推理框架,并支持 OpenAI、HuggingFace 等 31+ 云端 API。核心亮点包括创新的自然语言接口(NLI)和智能体助手…
UniRG 是一种基于多模态强化学习的医学影像报告生成框架,通过结合监督微调与强化学习,提升了模型在临床环境中的泛化能力和可靠性。UniRG-CXR 在多个数据集和指标上表现领先,尤其在跨机构和纵向报告生成方面具有显著优势,为医疗AI的实用化提供了新方向。