社区Reddit r/LocalLLaMA2026/02/12 17:2460
本文探讨了在RAM受限环境下,大模型低量化(如q2、q4)与REAP等优化策略的实际性能。作者分享了早期尝试的负面经验,如模型运行缓慢、死循环和智能水平低下。然而,最新实测发现Qwen3-Coder-Next-REAM-GGUF模型表现出色,在M3 Pro(36GB RAM)上实现了18 tokens/秒的推理速度,且无死循环、文本合理、工具使用良好。这为…
按该标签聚合的大模型资讯列表(自动分类与标签提取)。共 1 篇文章。