专题:memory-optimization

按该标签聚合的大模型资讯列表(自动分类与标签提取)。8 篇文章。

媒体Latent Space2026/04/04 06:036720
Gemma 4多模态模型发布
内存需求引发性能讨论

Google DeepMind推出Gemma 4多模态开源模型,涵盖文本、图像和音频处理能力,提供四种规模版本。其Dense与MoE架构优化了生成与推理任务,引发社区对性能与内存需求的讨论。同时,Hermes Agent因稳定性成为热门代理框架,微软企业级语音识别模型MAI-Transcribe-1也获得关注,凸显AI技术在研究与应用层面的双重进展。

媒体InfoQ 中文2026/04/03 22:405810
谷歌开源Gemma大模型系列
支持手机端离线Agent运行

谷歌开源Gemma系列大模型,主打手机端离线Agent支持与内存优化技术。通过动态内存分配和量化压缩,实现轻量化部署。对比Qwen等竞品,突出其在参数规模、推理效率及资源占用方面的优势,为移动端AI应用提供新方案。

官方Simon Willison2026/03/19 07:566840
苹果技术实现本地运行大模型
量化优化降低内存占用

Dan Woods利用苹果LLM in a Flash技术,在本地运行Qwen 397B模型,通过量化和专家混合架构优化内存使用。实验显示,4位量化可实现每秒4.36个令牌的推理速度,且输出质量与4位精度无明显差异。该成果对本地大模型部署具有重要参考价值。

社区Reddit r/LocalLLaMA2026/02/23 22:502760

一项针对30亿至700亿参数大型语言模型内存行为的Beta实验正在进行中。该实验旨在解决模型在微调过程中频繁出现的内存溢出(OOM)、严重内存碎片化以及高负载下异常表现等问题。不同于合成基准测试,此项目将部署来自真实社区的模型在H100 GPU上进行测试,以帮助开发者诊断并找出问题的根源。这并非一个托管服务公告,而是对特定运行时环境的实际工作负载测试。项目…