专题:muon-optimizer

按该标签聚合的大模型资讯列表(自动分类与标签提取)。1 篇文章。

社区Reddit r/LocalLLaMA2026/02/16 08:114830

Karpathy研究显示,AI模型训练成本每年下降约40%,得益于硬件、软件、算法和数据的多方面优化。成功改进包括Flash Attention 3、残差缩放和价值嵌入交替层,而部分复杂技术如FP8和RoPE未达预期效果。研究强调了实际测试的重要性,并指出最佳参数比例为10:1,对AI开发具有重要参考价值。