专题:gpu-optimization

按该标签聚合的大模型资讯列表(自动分类与标签提取)。4 篇文章。

媒体AINews2026/03/24 13:446830
谷歌发布Gemini 3.1 Flash Live提升语音性能
Mistral和Cohere推出新TTS与音频转文本工具

今日AI领域动态涵盖新模型发布、工具优化及社区讨论。谷歌推出Gemini 3.1 Flash Live,提升语音模型性能;Mistral和Cohere分别发布TTS和音频转文本工具;Cline Kanban等开源工具优化编码效率;Sakana AI推进自动化研究,NVIDIA和Intel发布新GPU产品。社区对模型准确性和公司战略调整展开讨论。

社区Reddit r/LocalLLaMA2026/02/23 20:413750

一位初学者开发者为 LM Studio 开发了开源批量自动化工具,解决了在低配硬件上进行模型测试时手动操作繁琐及 GPU 内存溢出(OOM)的问题。该工具通过强制释放内存避免崩溃,并集成了模型大小显示、思考过程过滤、多模态输入格式优化等功能。工具已编译为跨平台可执行文件,方便用户直接使用,旨在提升模型测试效率。

官方MongoDB Blog2025/12/18 23:004850

本文提出基于令牌计数的分批处理方法,用于优化嵌入模型的查询推理效率。通过填充移除技术,将短查询合并为超级序列,减少内存浪费和计算延迟。实验表明,该方法在降低GPU推理延迟、提升吞吐量和资源利用率方面效果显著,尤其适用于高突发性流量场景。