专题:gpu-inference

按该标签聚合的大模型资讯列表(自动分类与标签提取)。3 篇文章。

社区Reddit r/LocalLLaMA2026/02/22 18:375760

作者在 RTX 9060 XT 上使用 llama.cpp 的 Vulkan 后端,对 Qwen3‑30B‑A3B 的 UD‑IQ2_XXS 量化模型进行评测。结果显示,IQ2 版在 20 K+ 上下文下实现约 100 TPS,速度是 Q4_K_M 的 5 倍,且显存占用仅 10 GB。质量方面,高中‑大学题目几乎与 Q4 持平,只有极端学术题目略有差距。…

社区Reddit r/LocalLLaMA2026/02/12 19:3920

本文探讨了如何利用两块12GB RTX 3060显卡搭建一个自托管社区AI服务器,以支持多用户进行Stable Diffusion图像生成、视频处理及本地大语言模型推理。核心挑战在于选择适合12GB显存并能有效利用双GPU的AI模型,实现高效的多用户Web UI访问、GPU调度与显存管理,并构建稳定、低维护的Docker部署栈。用户寻求关于模型量化、多GP…

社区Reddit r/LocalLLaMA2026/02/08 19:4560

一位用户分享了他在RTX 3060 12GB显卡上,通过llama.cpp运行本地大模型的经验。他目前使用Magnum-v4 9B、Qwen2.5-Coder-7B和Qwen3-8B,分别处理通用知识、编程和复杂推理任务。作者对现有配置满意,并向社区征集在2026年初,其他用户在类似12GB显存受限硬件上使用的模型,特别是编程、通用聊天和多功能性方面的最佳…