ChatJimmy 采用硅上硬编码实现 15,000+ token/s 推理：专用 ASIC 能否取代通用 GPU？

近年来，业界一直在讨论本地大语言模型（）推理的可行路径。近日，chatjimmy.ai 宣称其使用一种名为 mask ROM recall fabric 的技术，将模型权重直接刻录在硅芯片上，实现了 每秒 15,414 个 token 的推理速度。

该方案与传统的通用处理器截然不同：

专用 ASIC：不依赖 HBM（高带宽内存）或 VRAM（显存），全部推理逻辑硬编码在芯片内部。
无内存瓶颈：权重常驻硅上，读取延迟几乎为零，因而能够保持极高的吞吐率。

相比之下，我最近入手了两块 Gigabyte AI TOP ATOM 显卡，基于 NVIDIA 的 Spark/Grace Blackwell 架构，配备 128 GB 统一内存，主要用于模型训练和。虽然在通用算力和灵活性上表现优秀，但面对专用 ASIC 所宣称的 15k /s，仍不免产生以下疑问：

这种硬编码 ASIC 是否会在短期内进入市场？
桌面级 GPU 的本地开发路线是否会因专用芯片的出现而迅速失去竞争力？
对于开发者而言，是否应提前布局 ASIC 生态，还是继续投资通用 GPU？

上述问题的答案取决于 ASIC 的可获取性、成本以及生态支持程度。目前，chatjimmy.ai 仍未公开芯片的详细规格或开源实现，业界只能依据其宣传数据进行初步评估。

ChatJimmy 采用硅上硬编码实现 15,000+ token/s 推理：专用 ASIC 能否取代通用 GPU？

内容评分

摘要

正文

标签