Taalas HC1：24人团队打造的结构化 ASIC，推理速率达 17000 token/s，功耗仅 250 W

背景

硅谷近期热议一款新型 AI 推理芯片——HC1。该芯片由仅有 24 人的初创公司 Taalas 推出，号称在 Llama 3.1‑8B 模型上实现每秒 17000 的推理速度，约为 Cerebras（2000 /s）的 10 倍，同时功耗下降 10 倍、成本降低 20 倍。

核心技术

模型硬编码：HC1 采用“模型即芯片”方案，模型权重直接写入掩模 ROM，只有少量 SRAM 用于 LoRA 权重和 KV 缓存，彻底摆脱传统的存算分离。
结构化 ASIC：借鉴 2000 年代的结构化 ASIC 思路，仅通过两层掩模改动即可适配不同工作负载，兼具全定制 ASIC 的性能和 FPGA 的灵活性。
工艺与规格：基于台积电 N6 工艺，芯片面积 815 mm²，单颗功耗 250 W。10 颗 HC1 组成的服务器总功耗约 2.5 kW，可使用普通风冷机架。

性能对比

| 芯片 | /s (Llama 3.1‑8B) | |------|------------------------| | HC1 | 17000 | | Cerebras | ~2000 | | SambaNova | ~900 | | Groq | ~600 | | NVIDIA B200 (Blackwell) | ~350 |

多模型扩展

Taalas 还展示了将 DeepSeek‑R1‑671B 切分至 30 颗 HC1 的方案，每颗芯片仅保留约 20 位参数的掩模 ROM，整体吞吐约 12000 /s，单位成本约为每百万 0.076 美元，仍低于同等 GPU 方案的一半。

团队与路线图

创始团队均来自 AMD/ATI/Altera，核心成员包括前 AMD 集成电路设计总监 Ljubiša Bajić、前 ASIC 设计总监 Drago Ignjatović 等。
已完成 3000 万美元首轮融资，累计融资 2 亿美元。
2024 年春季计划发布 HC1 的第二代变体，2024 冬季将推出密度更高、速度更快的 HC2。

市场与争议

正面评价认为 HC1 的亚毫秒级响应可推动具身智能、实时交互等新场景；负面声音指出硬编码模型导致推理深度受限，且模型迭代快时芯片易被淘汰，这也是业界仍倾向通用 GPU/ASIC 的原因。

参考链接

https://x.com/wildmindai/status/2024810128487096357?s=20
https://taalas.com/the-path-to-ubiquitous-ai/
https://chatjimmy.ai/
https://www.eetimes.com/taalas-specializes-to-extremes-for-extraordinary--speed

Taalas HC1：24人团队打造的结构化 ASIC，推理速率达 17000 token/s，功耗仅 250 W

内容评分

摘要

正文

背景

核心技术

性能对比

多模型扩展

团队与路线图

市场与争议

参考链接

标签

Taalas HC1：24人团队打造的结构化 ASIC，推理速率达 17000 token/s，功耗仅 250 W

内容评分

摘要

正文

背景

核心技术

性能对比

多模型扩展

团队与路线图

市场与争议

参考链接

标签

Taalas HC1：24人团队打造的结构化 ASIC，推理速率达 17000 token/s，功耗仅 250 W