专题：silicon-model

ChatJimmy 采用硅上硬编码实现 15,000+ token/s 推理：专用 ASIC 能否取代通用 GPU？

社区Reddit r/LocalLLaMA2026/02/22 19:246530

chatjimmy.ai 采用 mask ROM recall fabric 技术，将 LLM 权重硬刻在 ASIC 上，实现每秒 15,414 token 的推理速度，摆脱了 HBM/VRAM 限制。作者对比了自购的 NVIDIA Spark/Grace GPU，探讨专用 ASIC 是否会快速上市并让桌面 GPU 开发变得过时。文章重点在硬件架构差异及未…

定制ASIC 大语言模型推理硅上模型 GPU 与 ASIC 对比