专题:model-architecture

按该标签聚合的大模型资讯列表(自动分类与标签提取)。9 篇文章。

媒体Latent Space2026/04/04 06:036720
Gemma 4多模态模型发布
内存需求引发性能讨论

Google DeepMind推出Gemma 4多模态开源模型,涵盖文本、图像和音频处理能力,提供四种规模版本。其Dense与MoE架构优化了生成与推理任务,引发社区对性能与内存需求的讨论。同时,Hermes Agent因稳定性成为热门代理框架,微软企业级语音识别模型MAI-Transcribe-1也获得关注,凸显AI技术在研究与应用层面的双重进展。

媒体Latent Space2026/03/13 14:515830
Agent基础设施优化提升模型能力
MCP协议改进增强交互性能

本文聚焦于提升大型语言模型能力的高回报技术活动,涵盖Agent基础设施优化、MCP协议改进、编码代理开发、多模态检索突破及模型发布进展。特别介绍了Claude交互式图表和Perplexity Computer等产品功能更新,展示了这些技术在实际应用中的价值。文章内容详实,技术深度高,对开发者和研究人员具有重要参考价值。

社区Hacker News2026/02/15 17:274620

本文聚焦于提升大型语言模型(LLM)推理速度的两种核心技术。通过优化模型架构以增强并行处理能力,以及改进数据预处理策略以提高信息利用效率,这两种方法显著缩短了LLM的响应时间。这些技术对于降低LLM使用成本、提升其在实际应用中的竞争力具有重要意义,是推动LLM技术发展和普及的关键。

社区Reddit r/LocalLLaMA2026/02/09 21:0340

Hugging Face Transformers 库迎来重要更新,新增了对 GLM-5 模型的全面支持。此次更新通过一个拉取请求(PR)详细披露了 GLM-5 的核心架构设计与关键参数配置,旨在促进该模型在开源社区的广泛应用与研究。用户现在可以通过 Transformers 框架便捷地访问和利用 GLM-5 模型,进一步推动大型语言模型技术的发展与创新。…

官方Microsoft Research Blog2026/02/06 01:006840
PIDMs通过预测未来状态提升模仿学习
减少对大量示范数据的依赖

本文提出预测逆动力学模型(PIDMs)以改进模仿学习,通过预测未来状态和推断行动,提升数据效率和意图建模能力。实验表明PIDMs在多数任务中优于传统行为克隆方法,尤其适用于数据稀缺或复杂环境。