专题：asic

按该标签聚合的大模型资讯列表（自动分类与标签提取）。共 2 篇文章。

ChatJimmy 采用硅上硬编码实现 15,000+ token/s 推理：专用 ASIC 能否取代通用 GPU？

社区Reddit r/LocalLLaMA2026/02/22 19:246530

chatjimmy.ai 采用 mask ROM recall fabric 技术，将 LLM 权重硬刻在 ASIC 上，实现每秒 15,414 token 的推理速度，摆脱了 HBM/VRAM 限制。作者对比了自购的 NVIDIA Spark/Grace GPU，探讨专用 ASIC 是否会快速上市并让桌面 GPU 开发变得过时。文章重点在硬件架构差异及未…

定制ASIC 大语言模型推理硅上模型 GPU 与 ASIC 对比

定制ASIC在AI推理中的突破与挑战：Taalas与Martin Casado的深度探讨

原文

媒体Latent Space2026/02/21 10:456720

Taalas基于Llama 3.1 8B实现每秒16,960 token的推理速度，展示了定制ASIC在AI加速中的潜力。文章分析了其在构建成本和功耗上的优化，同时指出量化问题可能影响性能。Martin Casado强调定制芯片的经济性和技术优势，但也提到模型质量与行业前沿的差距。随着LLM架构标准化，未来推理速度有望突破20,000 token/秒。

定制ASIC 大语言模型推理速度芯片设计量化技术