首页/详情

ChatJimmy 采用硅上硬编码实现 15,000+ token/s 推理:专用 ASIC 能否取代通用 GPU?

Reddit r/LocalLLaMA2026/02/22 19:24机翻/自动摘要/自动分类
3 阅读

内容评分

技术含量
5/10
营销水分
6/10

摘要

chatjimmy.ai 采用 mask ROM recall fabric 技术,将 LLM 权重硬刻在 ASIC 上,实现每秒 15,414 token 的推理速度,摆脱了 HBM/VRAM 限制。作者对比了自购的 NVIDIA Spark/Grace GPU,探讨专用 ASIC 是否会快速上市并让桌面 GPU 开发变得过时。文章重点在硬件架构差异及未来生态走向的思考。

正文

近年来,业界一直在讨论本地大语言模型()推理的可行路径。近日,chatjimmy.ai 宣称其使用一种名为 mask ROM recall fabric 的技术,将模型权重直接刻录在硅芯片上,实现了 每秒 15,414 个 token 的推理速度。

该方案与传统的通用处理器截然不同:

  • 专用 ASIC:不依赖 HBM(高带宽内存)或 VRAM(显存),全部推理逻辑硬编码在芯片内部。
  • 无内存瓶颈:权重常驻硅上,读取延迟几乎为零,因而能够保持极高的吞吐率。

相比之下,我最近入手了两块 Gigabyte AI TOP ATOM 显卡,基于 NVIDIA 的 Spark/Grace Blackwell 架构,配备 128 GB 统一内存,主要用于模型训练和。虽然在通用算力和灵活性上表现优秀,但面对专用 ASIC 所宣称的 15k /s,仍不免产生以下疑问:

  1. 这种硬编码 ASIC 是否会在短期内进入市场?
  2. 桌面级 GPU 的本地开发路线是否会因专用芯片的出现而迅速失去竞争力?
  3. 对于开发者而言,是否应提前布局 ASIC 生态,还是继续投资通用 GPU?

上述问题的答案取决于 ASIC 的可获取性、成本以及生态支持程度。目前,chatjimmy.ai 仍未公开芯片的详细规格或开源实现,业界只能依据其宣传数据进行初步评估。

标签