专题:transformer

按该标签聚合的大模型资讯列表(自动分类与标签提取)。28 篇文章。

社区Hacker News2026/04/03 17:355710
安装Ollama与Gemma 4模型
验证硬件兼容性

本指南详解如何在Mac mini上部署Ollama与Gemma 4(26B)模型。通过硬件验证、依赖安装、环境配置及测试流程,为开发者提供本地化LLM开发方案。重点突出资源优化策略,适用于需要在轻量级设备上进行AI研究的场景,强调实践操作与配置技巧。

社区Hacker News2026/04/03 00:105520
Google 发布开源模型 Gemma 4
提供 2B‑7B 参数多规格版本

Google 发布了开源大语言模型 Gemma 4,提供 2B‑7B 参数多规格版本,基于 Transformer 架构并在指令遵循、代码生成和多语言理解上表现提升。官方同步开放模型权重、推理代码及安全评估报告,旨在帮助开发者快速落地并促进社区共建。

社区Hacker News2026/04/02 04:385800
CodonRoBERTa‑large‑v2 达到 4.10 perplexity、0.40 CAI 相关性
55 GPU 小时(≈165 美元)训练 25 种物种模型

本文介绍了 CodonRoBERTa‑large‑v2——一种在密码子层面进行语言建模的 Transformer,凭借 4.10 的 perplexity 与 0.40 的 Spearman CAI 相关性领先于同类模型。团队在仅 165 美元、55 GPU 小时的成本下,完成了覆盖 25 种物种的多模型训练,并提供了完整的开源代码和基于物种特性的自动化系…

媒体AWS Machine Learning Blog2026/03/20 01:257820
NVIDIA Nemotron 3 Super 在 Amazon Bedrock 上推出
支持多语言和长上下文推理

NVIDIA Nemotron 3 Super 在 Amazon Bedrock 上发布,采用 MoE 架构,支持多语言和长上下文。其在多个基准测试中表现优异,具备高吞吐效率和准确性。开发者可通过 AWS CLI 和 SDK 调用模型,并利用其进行复杂任务如分布式限速服务设计。

媒体爱范儿2026/03/13 10:007810
爱诗科技获3亿美元C轮融资
DiT架构提升视频生成能力

爱诗科技完成3亿美元C轮融资,成为国内AI视频生成领域最大单笔融资。其DiT架构结合Diffusion与Transformer,提升视频生成能力。PixVerse V5.6位列全球第二,R1产品实现实时交互,推动内容创作革新。资本看好其在互动内容领域的潜力,预示AI视频生成技术将引领行业变革。

社区Hacker News2026/03/12 17:177850
Transformer内执行程序提升推理速度
结合RAG与Agent优化任务处理

文章提出在Transformer架构中执行程序,结合RAG与Agent技术,实现推理速度的指数级提升。该方法利用Transformer的并行计算优势,优化复杂任务处理流程,提升模型实际应用性能。

媒体Last Week in AI2026/03/05 16:427620

本期LWiAI播客汇总了AI模型更新、芯片合作、3D技术投资及安全研究等多领域动态。重点包括Anthropic Sonnet 4.6、Google Gemini 3.1 Pro、xAI Grok 4.2等模型进展,以及Meta与AMD的芯片合作、中国芯片制造计划等。同时探讨了‘深度思考模型’对AI推理能力的评估和AI滥用的防范措施,内容涵盖技术、商业与政策。

媒体InfoQ 中文2026/02/28 02:005830

DeepSeek AI与清华、北大联合发布新论文,揭示了DeepSeek V4大型语言模型架构的重大改进。该架构融合了混合专家模型(MoE)和高效注意力机制,显著提升了模型在语言理解、代码生成等任务上的性能和推理速度,同时降低了计算成本。这一进展标志着LLM技术向更高效、更强大的方向迈进,为AI应用开辟新机遇。

媒体Hugging Face Blog2026/02/26 08:005730

Transformer架构引入了“专家混合”(Mixture of Experts, MoEs)机制,通过并行激活多个专家模型并动态分配权重,实现对输入数据的智能处理。该机制显著提升了模型在复杂NLP任务中的准确率和泛化能力,通过稀疏激活优化了计算效率。MoEs为Transformer的性能飞跃提供了新的架构思路。

社区Hacker News2026/02/22 20:345430

Stripe发布了Minions,一款创新的一次性、端到端AI编码助手。该工具旨在通过自动化代码编写任务,显著提升开发者的工作效率并节省时间。Minions的核心技术基于先进的大语言模型(LLM)和Transformer架构,使其能够精准理解用户需求,并根据简洁的指令生成高质量的代码片段或完整程序。其即插即用的特性极大地简化了开发流程,特别适用于需要快速迭…