首页/详情

Taalas HC1:24人团队打造的结构化 ASIC,推理速率达 17000 token/s,功耗仅 250 W

量子位2026/02/21 14:31机翻/自动摘要/自动分类
4 阅读

内容评分

技术含量
7/10
营销水分
8/10

摘要

Taalas 以 24 人团队推出 HC1 芯片,将 Llama 3.1‑8B 硬编码进掩模 ROM,实现每秒 17000 token 推理,功耗仅 250 W,成本与能效均显著优于现有 GPU/ASIC。技术核心是结构化 ASIC 与模型硬连线,已展示多模型扩展方案,预计 2024 年将陆续发布二代产品。

正文

背景

硅谷近期热议一款新型 AI 推理芯片——HC1。该芯片由仅有 24 人的初创公司 Taalas 推出,号称在 Llama 3.1‑8B 模型上实现每秒 17000 的推理速度,约为 Cerebras(2000 /s)的 10 倍,同时功耗下降 10 倍、成本降低 20 倍。

核心技术

  • 模型硬编码:HC1 采用“模型即芯片”方案,模型权重直接写入掩模 ROM,只有少量 SRAM 用于 LoRA 权重和 KV 缓存,彻底摆脱传统的存算分离。
  • 结构化 ASIC:借鉴 2000 年代的结构化 ASIC 思路,仅通过两层掩模改动即可适配不同工作负载,兼具全定制 ASIC 的性能和 FPGA 的灵活性。
  • 工艺与规格:基于台积电 N6 工艺,芯片面积 815 mm²,单颗功耗 250 W。10 颗 HC1 组成的服务器总功耗约 2.5 kW,可使用普通风冷机架。

性能对比

| 芯片 | /s (Llama 3.1‑8B) | |------|------------------------| | HC1 | 17000 | | Cerebras | ~2000 | | SambaNova | ~900 | | Groq | ~600 | | NVIDIA B200 (Blackwell) | ~350 |

多模型扩展

Taalas 还展示了将 DeepSeek‑R1‑671B 切分至 30 颗 HC1 的方案,每颗芯片仅保留约 20 位参数的掩模 ROM,整体吞吐约 12000 /s,单位成本约为每百万 0.076 美元,仍低于同等 GPU 方案的一半。

团队与路线图

  • 创始团队均来自 AMD/ATI/Altera,核心成员包括前 AMD 集成电路设计总监 Ljubiša Bajić、前 ASIC 设计总监 Drago Ignjatović 等。
  • 已完成 3000 万美元首轮融资,累计融资 2 亿美元。
  • 2024 年春季计划发布 HC1 的第二代变体,2024 冬季将推出密度更高、速度更快的 HC2。

市场与争议

正面评价认为 HC1 的亚毫秒级响应可推动具身智能、实时交互等新场景;负面声音指出硬编码模型导致推理深度受限,且模型迭代快时芯片易被淘汰,这也是业界仍倾向通用 GPU/ASIC 的原因。

参考链接

  1. https://x.com/wildmindai/status/2024810128487096357?s=20
  2. https://taalas.com/the-path-to-ubiquitous-ai/
  3. https://chatjimmy.ai/
  4. https://www.eetimes.com/taalas-specializes-to-extremes-for-extraordinary--speed

标签