专题：gpu-inference

按该标签聚合的大模型资讯列表（自动分类与标签提取）。共 3 篇文章。

IQ2 量化模型在 Qwen3‑30B‑A3B 上的惊人加速与质量评测

社区Reddit r/LocalLLaMA2026/02/22 18:375760

作者在 RTX 9060 XT 上使用 llama.cpp 的 Vulkan 后端，对 Qwen3‑30B‑A3B 的 UD‑IQ2_XXS 量化模型进行评测。结果显示，IQ2 版在 20 K+ 上下文下实现约 100 TPS，速度是 Q4_K_M 的 5 倍，且显存占用仅 10 GB。质量方面，高中‑大学题目几乎与 Q4 持平，只有极端学术题目略有差距。…

量化技术 llama.cpp GPU 推理加速模型评估

双RTX 3060 (12GB) 自建社区AI服务器：模型选择、多用户管理与Docker部署最佳实践

原文

社区Reddit r/LocalLLaMA2026/02/12 19:3920

本文探讨了如何利用两块12GB RTX 3060显卡搭建一个自托管社区AI服务器，以支持多用户进行Stable Diffusion图像生成、视频处理及本地大语言模型推理。核心挑战在于选择适合12GB显存并能有效利用双GPU的AI模型，实现高效的多用户Web UI访问、GPU调度与显存管理，并构建稳定、低维护的Docker部署栈。用户寻求关于模型量化、多GP…

GPU 推理加速自托管AI 多GPU 资源分配 LLM部署 Docker部署

2026年，你在RTX 3060 12GB上运行哪些大模型？

原文

社区Reddit r/LocalLLaMA2026/02/08 19:4560

一位用户分享了他在RTX 3060 12GB显卡上，通过llama.cpp运行本地大模型的经验。他目前使用Magnum-v4 9B、Qwen2.5-Coder-7B和Qwen3-8B，分别处理通用知识、编程和复杂推理任务。作者对现有配置满意，并向社区征集在2026年初，其他用户在类似12GB显存受限硬件上使用的模型，特别是编程、通用聊天和多功能性方面的最佳…

RTX 3060 12GB llama.cpp 本地大模型模型选择 GPU 推理加速