专题：token_generation

按该标签聚合的大模型资讯列表（自动分类与标签提取）。共 1 篇文章。

Qwen3.5-397B：5.9GB内存下实现4.74 tok/s推理速度

社区Hacker News2026/03/18 00:313760

• 5.9GB内存下实现4.74 tok/s生成速度

• 展示大模型的资源优化能力

Qwen3.5-397B模型在5.9GB内存下实现每秒4.74个token的生成速度，体现了大模型在资源优化方面的进展。该模型适用于需要高效推理能力的场景，是模型性能优化的一个亮点。