专题：gguf

按该标签聚合的大模型资讯列表（自动分类与标签提取）。共 6 篇文章。

Qwen3系列模型在不同架构与硬件下的推理性能实测分析

原文

社区Reddit r/LocalLLaMA2026/03/04 20:414740

本文对Qwen3系列模型在不同量化架构和硬件下的推理速度进行了实测分析，揭示了参数量、量化方式和硬件配置对模型性能的影响。重点对比了A3B与GGUF架构的差异，并指出Qwen3.5模型在当前配置下性能受限。

量化技术 MLX架构 GGUF格式 token/秒推理速度模型性能

GGML/GGUF文件格式潜在安全漏洞分析：LLM模型分发的新挑战

原文

媒体Lobsters AI2026/02/16 23:342820

GGML/GGUF文件格式因其在本地LLM运行中的普及，其潜在安全漏洞正成为焦点。讨论揭示，GGUF格式允许嵌入任意数据和复杂结构，可能被恶意利用。主要风险包括资源耗尽攻击（DoS）、通过不当数据解释导致的任意文件操作或代码执行，以及反序列化漏洞。这些问题对依赖GGML/GGUF的应用构成威胁，凸显了在加载模型时进行严格验证、资源限制和沙盒化处理的重要性，…

GGML库 GGUF格式 LLM 安全文件格式漏洞供应链安全

大模型低量化与REAP技术实战：RAM受限环境下的性能挑战与Qwen3-Coder-Next-REAM实测

原文

社区Reddit r/LocalLLaMA2026/02/12 17:2460

本文探讨了在RAM受限环境下，大模型低量化（如q2、q4）与REAP等优化策略的实际性能。作者分享了早期尝试的负面经验，如模型运行缓慢、死循环和智能水平低下。然而，最新实测发现Qwen3-Coder-Next-REAM-GGUF模型表现出色，在M3 Pro（36GB RAM）上实现了18 tokens/秒的推理速度，且无死循环、文本合理、工具使用良好。这为…

量化技术 REAP 大模型优化 GGUF格式低内存部署

MDST引擎：基于WebGPU与WASM的浏览器端GGUF模型运行方案

原文

社区Hacker News2026/02/11 22:094840

MDST引擎通过WebGPU和WASM技术实现浏览器端GGUF模型的高效运行，解决了传统模型部署在浏览器中的性能瓶颈。其核心亮点在于利用GPU加速和轻量级模型格式，适用于实时交互和边缘计算场景，为AI在Web端的部署提供了新思路。

WebGPU WASM GGUF格式浏览器端模型部署 AI模型推理

27B参数Regency风格大模型 'Regency-Aghast' 发布GGUF版本

原文

社区Reddit r/LocalLLaMA2026/02/11 13:0230

一位开发者宣布发布了其重新构建的270亿参数Regency风格大型语言模型“Regency-Aghast”的GGUF版本。该模型旨在复现19世纪初（摄政时代）的独特语言风格和思维模式，为特定历史背景下的文本生成和角色扮演提供支持。作者利用Vast.ai的计算资源完成了此次模型重建，并对其在相关平台上的表现寄予厚望。该模型已在Hugging Face上开源，…

LLM模型 GGUF格式模型发布本地推理垂直领域模型

LLM量化：新手困惑与求助

原文

社区Reddit r/LocalLLaMA2026/02/08 18:2530

一位刚接触本地模型运行的用户，对LLM量化技术感到非常困惑。他表示难以理解GGUF及其他常见量化方式，如int4、int8、Q4_K_M、Q5_K_M、iQ4_K_M等具体含义及区别。同时，对于F16、BF16、FP16、FP8等浮点精度格式也一头雾水。尽管查阅了现有解释，但因其复杂性而未能理解，因此寻求社区的帮助与指导。

大模型量化 GGUF格式整数量化浮点精度模型推理