专题：neural-networks

按该标签聚合的大模型资讯列表（自动分类与标签提取）。共 4 篇文章。

大型语言模型架构图鉴

媒体Lobsters AI2026/03/16 12:074740

• 展示多种LLM架构图

• 分析模型组件与设计

本文通过架构图展示多种大型语言模型的设计，帮助读者直观理解LLM的内部结构和关键组件。内容涵盖不同模型的参数规模、训练方法和组件布局，适合技术爱好者和研究人员参考。

媒体Lobsters AI2026/03/11 04:126840

• 无需调整参数提升模型性能

• 分析LLM神经架构优化方法

本文介绍了一种无需调整模型参数即可提升大型语言模型在AI排行榜表现的方法。通过深入分析模型的神经架构，作者提出了一种创新的训练或优化策略，展示了如何在不改变权重的情况下实现性能突破。核心亮点在于对模型结构的利用和实验验证。

媒体Andrej Karpathy (YouTube)2022/10/12 01:564860

反向传播是深度学习模型训练的核心算法，用于计算参数梯度并优化权重。本文从原理到实现，结合代码和案例，系统讲解反向传播的使用方法，并提供练习巩固理解。核心亮点在于理论与实践结合，适合进阶学习。

媒体Andrej Karpathy (YouTube)2022/10/05 00:413830

本文深入解析了深度学习中的激活函数、梯度计算和BatchNorm技术，探讨其在模型训练中的作用与实现方式。核心亮点包括对非线性引入机制的剖析、反向传播原理的讲解以及BatchNorm的标准化流程。适用于理解模型训练底层原理的读者。