专题:gguf

按该标签聚合的大模型资讯列表(自动分类与标签提取)。6 篇文章。

媒体Lobsters AI2026/02/16 23:342820

GGML/GGUF文件格式因其在本地LLM运行中的普及,其潜在安全漏洞正成为焦点。讨论揭示,GGUF格式允许嵌入任意数据和复杂结构,可能被恶意利用。主要风险包括资源耗尽攻击(DoS)、通过不当数据解释导致的任意文件操作或代码执行,以及反序列化漏洞。这些问题对依赖GGML/GGUF的应用构成威胁,凸显了在加载模型时进行严格验证、资源限制和沙盒化处理的重要性,…

社区Reddit r/LocalLLaMA2026/02/12 17:2460

本文探讨了在RAM受限环境下,大模型低量化(如q2、q4)与REAP等优化策略的实际性能。作者分享了早期尝试的负面经验,如模型运行缓慢、死循环和智能水平低下。然而,最新实测发现Qwen3-Coder-Next-REAM-GGUF模型表现出色,在M3 Pro(36GB RAM)上实现了18 tokens/秒的推理速度,且无死循环、文本合理、工具使用良好。这为…

社区Reddit r/LocalLLaMA2026/02/11 13:0230

一位开发者宣布发布了其重新构建的270亿参数Regency风格大型语言模型“Regency-Aghast”的GGUF版本。该模型旨在复现19世纪初(摄政时代)的独特语言风格和思维模式,为特定历史背景下的文本生成和角色扮演提供支持。作者利用Vast.ai的计算资源完成了此次模型重建,并对其在相关平台上的表现寄予厚望。该模型已在Hugging Face上开源,…

社区Reddit r/LocalLLaMA2026/02/08 18:2530

一位刚接触本地模型运行的用户,对LLM量化技术感到非常困惑。他表示难以理解GGUF及其他常见量化方式,如int4、int8、Q4_K_M、Q5_K_M、iQ4_K_M等具体含义及区别。同时,对于F16、BF16、FP16、FP8等浮点精度格式也一头雾水。尽管查阅了现有解释,但因其复杂性而未能理解,因此寻求社区的帮助与指导。