社区Reddit r/LocalLLaMA2026/02/15 15:582750
MiniMax M2.5的REAP(Reduced Error Approximation Pruning)量化变体模型已在HuggingFace平台发布,为AI开发者提供了新的选择。这些模型包括19%、29%和50% REAP版本,采用SafeTensors格式,易于集成。作者在使用体验中指出,MiniMax M2.5在处理复杂任务时,相比Qwen Co…
按该标签聚合的大模型资讯列表(自动分类与标签提取)。共 2 篇文章。
MiniMax M2.5的REAP(Reduced Error Approximation Pruning)量化变体模型已在HuggingFace平台发布,为AI开发者提供了新的选择。这些模型包括19%、29%和50% REAP版本,采用SafeTensors格式,易于集成。作者在使用体验中指出,MiniMax M2.5在处理复杂任务时,相比Qwen Co…
本文探讨了在RAM受限环境下,大模型低量化(如q2、q4)与REAP等优化策略的实际性能。作者分享了早期尝试的负面经验,如模型运行缓慢、死循环和智能水平低下。然而,最新实测发现Qwen3-Coder-Next-REAM-GGUF模型表现出色,在M3 Pro(36GB RAM)上实现了18 tokens/秒的推理速度,且无死循环、文本合理、工具使用良好。这为…