专题:asic

按该标签聚合的大模型资讯列表(自动分类与标签提取)。2 篇文章。

社区Reddit r/LocalLLaMA2026/02/22 19:246530

chatjimmy.ai 采用 mask ROM recall fabric 技术,将 LLM 权重硬刻在 ASIC 上,实现每秒 15,414 token 的推理速度,摆脱了 HBM/VRAM 限制。作者对比了自购的 NVIDIA Spark/Grace GPU,探讨专用 ASIC 是否会快速上市并让桌面 GPU 开发变得过时。文章重点在硬件架构差异及未…

媒体Latent Space2026/02/21 10:456720

Taalas基于Llama 3.1 8B实现每秒16,960 token的推理速度,展示了定制ASIC在AI加速中的潜力。文章分析了其在构建成本和功耗上的优化,同时指出量化问题可能影响性能。Martin Casado强调定制芯片的经济性和技术优势,但也提到模型质量与行业前沿的差距。随着LLM架构标准化,未来推理速度有望突破20,000 token/秒。