Qwen3.5-397B:5.9GB内存下实现4.74 tok/s推理速度原文社区Hacker News2026/03/18 00:313760• 5.9GB内存下实现4.74 tok/s生成速度• 展示大模型的资源优化能力Qwen3.5-397B模型在5.9GB内存下实现每秒4.74个token的生成速度,体现了大模型在资源优化方面的进展。该模型适用于需要高效推理能力的场景,是模型性能优化的一个亮点。大型语言模型模型性能内存优化token生成推理速度