专题：transformer

本文介绍了 CodonRoBERTa‑large‑v2——一种在密码子层面进行语言建模的 Transformer，凭借 4.10 的 perplexity 与 0.40 的 Spearman CAI 相关性领先于同类模型。团队在仅 165 美元、55 GPU 小时的成本下，完成了覆盖 25 种物种的多模型训练，并提供了完整的开源代码和基于物种特性的自动化系…

密码子级语言模型 Transformer 架构跨物种训练蛋白质设计开源项目

Transformer电路的直观解析与原理详解

原文

社区Hacker News2026/03/23 09:063830

• 解析Transformer核心组件

• 结合图示与数学分析

本文通过图示和数学分析，直观解析Transformer模型的结构与机制，帮助读者理解其在NLP和CV中的应用。核心亮点包括自注意力机制、位置编码和前馈网络的详细说明。

Transformer 架构自回归生成位置编码自然语言处理计算机视觉

NVIDIA Nemotron 3 Super 在 Amazon Bedrock 上正式发布

原文

媒体AWS Machine Learning Blog2026/03/20 01:257820

• NVIDIA Nemotron 3 Super 在 Amazon Bedrock 上推出

• 支持多语言和长上下文推理

NVIDIA Nemotron 3 Super 在 Amazon Bedrock 上发布，采用 MoE 架构，支持多语言和长上下文。其在多个基准测试中表现优异，具备高吞吐效率和准确性。开发者可通过 AWS CLI 和 SDK 调用模型，并利用其进行复杂任务如分布式限速服务设计。

NVIDIA Amazon Bedrock Mixture‑of‑Experts 架构 Transformer 架构大语言模型

Kimi大模型架构升级：Transformer优化与DeepSeek同款模型对比

原文

媒体InfoQ 中文2026/03/18 00:087820

• Kimi优化Transformer结构提升性能

• 对比DeepSeek模型表现差异

Kimi大模型推出新架构，优化Transformer结构并对比DeepSeek模型。核心亮点包括注意力机制改进、参数量调整和训练方法优化，提升模型效率和性能，适用于多种AI应用场景。

Transformer 架构注意力机制优化模型优化 DeepSeek AI训练方法

能动性工程：构建自主决策的AI代理系统

原文

社区Hacker News2026/03/16 09:075760

• 设计自主决策AI代理

• 结合LLM与RAG技术

能动性工程是AI代理设计的新方向，强调系统自主性和适应性。通过智能代理、语言模型和RAG等技术，提升AI在复杂环境中的决策与执行能力。核心亮点在于结合学习与推理，实现更灵活的智能行为。

AI代理语言模型检索增强生成 Transformer 架构自主性

AI驱动机器人制作花生酱果酱三明治：技术解析与实践案例

原文

社区Hacker News2026/03/13 11:065740

• 利用LLM理解制作指令

• 通过RAG增强知识库

文章介绍如何用AI技术训练机器人制作花生酱果酱三明治，涵盖LLM、Transformer和RAG等技术，展示了AI在任务执行和指令理解方面的应用潜力。

大语言模型 Transformer 架构检索增强生成机器人技术任务执行

爱诗科技获3亿美元C轮融资，引领AI视频生成技术革新

原文

媒体爱范儿2026/03/13 10:007810

• 爱诗科技获3亿美元C轮融资

• DiT架构提升视频生成能力

爱诗科技完成3亿美元C轮融资，成为国内AI视频生成领域最大单笔融资。其DiT架构结合Diffusion与Transformer，提升视频生成能力。PixVerse V5.6位列全球第二，R1产品实现实时交互，推动内容创作革新。资本看好其在互动内容领域的潜力，预示AI视频生成技术将引领行业变革。

扩散模型 Transformer 架构 AI 视频生成 PixVerse 互动内容

Transformer架构内执行程序，实现推理速度指数级提升

原文

社区Hacker News2026/03/12 17:177850

• Transformer内执行程序提升推理速度

• 结合RAG与Agent优化任务处理

文章提出在Transformer架构中执行程序，结合RAG与Agent技术，实现推理速度的指数级提升。该方法利用Transformer的并行计算优势，优化复杂任务处理流程，提升模型实际应用性能。

Transformer 架构检索增强生成自主智能体推理优化自然语言处理

LoGeR：从超长视频中高效重建3D模型的新方法

原文

社区Hacker News2026/03/10 14:166860

• 从长视频重建3D模型

• 基于Transformer架构

LoGeR是一种从超长视频中重建3D模型的新方法，结合Transformer架构和自监督学习，提升了效率与精度。适用于VR、AR和机器人导航等场景，具有重要的研究价值。

3D重建 Transformer 架构自监督学习视频处理深度学习

LWiAI播客第235期：AI模型更新与行业动态全景解析

原文

媒体Last Week in AI2026/03/05 16:427620

本期LWiAI播客汇总了AI模型更新、芯片合作、3D技术投资及安全研究等多领域动态。重点包括Anthropic Sonnet 4.6、Google Gemini 3.1 Pro、xAI Grok 4.2等模型进展，以及Meta与AMD的芯片合作、中国芯片制造计划等。同时探讨了‘深度思考模型’对AI推理能力的评估和AI滥用的防范措施，内容涵盖技术、商业与政策。

AI模型 Transformer 架构深度思考模型芯片合作 AI 安全

AI驱动的SVG图像生成技术解析与应用

原文

媒体Matt Wolfe2026/02/28 22:164640

本文介绍AI生成SVG图像的技术方法，涵盖模型生成、Transformer转换及RAG与Agent结合应用。适用于网页设计和数字媒体领域，提升效率与图像质量，具有一定的技术参考价值。

SVG生成 AI图像生成 Transformer 架构检索增强生成自主智能体

DeepSeek V4架构揭秘：清华北大联合发布LLM性能飞跃新论文

原文

媒体InfoQ 中文2026/02/28 02:005830

DeepSeek AI与清华、北大联合发布新论文，揭示了DeepSeek V4大型语言模型架构的重大改进。该架构融合了混合专家模型（MoE）和高效注意力机制，显著提升了模型在语言理解、代码生成等任务上的性能和推理速度，同时降低了计算成本。这一进展标志着LLM技术向更高效、更强大的方向迈进，为AI应用开辟新机遇。

大语言模型 DeepSeek Transformer 架构 Mixture‑of‑Experts 架构 AI研究

Transformer架构的“专家混合”（MoE）机制：解锁模型性能与泛化能力的飞跃

原文

媒体Hugging Face Blog2026/02/26 08:005730

Transformer架构引入了“专家混合”（Mixture of Experts, MoEs）机制，通过并行激活多个专家模型并动态分配权重，实现对输入数据的智能处理。该机制显著提升了模型在复杂NLP任务中的准确率和泛化能力，通过稀疏激活优化了计算效率。MoEs为Transformer的性能飞跃提供了新的架构思路。

Transformer 架构混合专家模型 LLM架构自然语言处理

X（原Twitter）推荐系统算法开源解析：基于Grok的Transformer架构

原文

媒体ByteByteGo Newsletter2026/02/26 00:306830

X开源推荐系统基于Grok Transformer模型，采用双塔结构进行相似性搜索和多行为预测，涵盖Home Mixer、Thunder、Phoenix等核心组件，适用于AI推荐系统研究与实践。

Transformer 架构推荐系统相似性搜索嵌入向量机器学习流程

从 Transformer 到 GPT‑5.3：171 款大型语言模型全景时间轴

原文

社区Hacker News2026/02/23 17:074640

本文呈现了一条交互式时间轴，梳理了 2017‑2026 年间 171 种大型语言模型的发布历程。用户可按开源/闭源过滤、关键词搜索，并查看涉及的 54 家机构信息，为研究者和开发者提供全景式的 LLM 发展参考。

大语言模型 Transformer 架构开源项目闭源模型 AI 发展史

Stripe推出Minions：一次性端到端AI编码助手，赋能开发者提效

原文

社区Hacker News2026/02/22 20:345430

Stripe发布了Minions，一款创新的一次性、端到端AI编码助手。该工具旨在通过自动化代码编写任务，显著提升开发者的工作效率并节省时间。Minions的核心技术基于先进的大语言模型（LLM）和Transformer架构，使其能够精准理解用户需求，并根据简洁的指令生成高质量的代码片段或完整程序。其即插即用的特性极大地简化了开发流程，特别适用于需要快速迭…

AI编码辅助大语言模型 Stripe 自动化开发 Transformer 架构

Claude代码解析与开发者Boris Cherny的技术洞察

原文

官方Y Combinator YouTube2026/02/17 23:005830

Claude是一款基于Transformer和RAG的智能助手，由开发者Boris Cherny设计。文章解析了其代码实现与技术原理，展示了其在自然语言处理中的优势，如信息检索增强和生成优化。

Transformer 架构检索增强生成大语言模型代码分析 AI开发者

Claude Opus 4.6 发布：自然语言处理模型的全面升级

原文

官方Anthropic YouTube2026/02/06 01:457630

Claude Opus 4.6 是 Claude 系列最新自然语言处理模型，基于 Transformer 架构，显著提升了语言理解、生成能力和对话流畅性。适用于复杂文本处理和自然交互场景，为 NLP 领域带来更多创新可能。

Transformer 架构自然语言处理语言模型对话系统模型升级