作者在 RTX 9060 XT 上使用 llama.cpp 的 Vulkan 后端,对 Qwen3‑30B‑A3B 的 UD‑IQ2_XXS 量化模型进行评测。结果显示,IQ2 版在 20 K+ 上下文下实现约 100 TPS,速度是 Q4_K_M 的 5 倍,且显存占用仅 10 GB。质量方面,高中‑大学题目几乎与 Q4 持平,只有极端学术题目略有差距。…
专题:llama-cpp
按该标签聚合的大模型资讯列表(自动分类与标签提取)。共 14 篇文章。
GGML 与 llama.cpp 正式加入 Hugging Face,提供统一的模型卡、pipeline 接口和 Python 示例,实现低内存、CPU/GPU 多平台本地推理。此举降低了大语言模型的部署门槛,提升隐私安全和成本效益,并通过 Docker 镜像和社区量化脚本构建完整的本地 AI 生态链。
ggml 与 llama.cpp 正式加入 Hugging Face,意味着本地推理模型可以在统一平台上获取、量化并快速部署。此举将显著降低开发门槛、加速工具链集成,并借助 HF 的 CI/CD 提供长期维护。然而,模型与运行时的集中化也可能削弱独立推理栈的创新空间,社区需在便利与多样性之间保持平衡。
文章揭示了 llama.cpp 在多线程环境下的三大致命缺陷:停止信号未传递导致模型继续运行、线程切换时上下文混淆以及 Prompt Cache 未彻底清理导致性能下降。针对每个问题提供了实现层面的修复思路,帮助开发者提升本地 LLM 部署的可靠性与效率。
本文记录了一位RTX 4090(24GB显存,64GB RAM)用户在本地部署AI编码器和LLM时面临的选型困境。用户在卸载Coder 2.5后,正考虑Llama.cpp和Qwen3 Coder,并寻求社区推荐。他偏好GUI,对Docker的繁琐操作感到不满。核心需求是寻找一个兼顾上下文理解、准确性和智能性的高性能编码器,并对OpenAI免费版模型表现出失…
本文对 Apple Silicon M3 Ultra 平台上的大型语言模型(LLM)进行了性能实测。在 llama.cpp 环境下,使用 10000 token 的深度上下文生成任务作为评测标准,GPT-OSS:120B 以其出色的速度和通用性脱颖而出,成为当前中等硬件配置下的首选。Nemotron Nano 因其参数规模与速度的良好平衡展现出潜力。GLM…
TBG (O)llama Swap + 提示优化器是一款创新的中间件,旨在解决本地 LLM 因上下文过长导致服务中断的问题。它通过动态调整模型上下文大小、支持多模型并行以及智能优化提示内容(包括去除冗余、LLM 辅助总结等策略),显著提升了代理 CLI 的稳定性和持久性。该工具为开发者提供了灵活的 API 接口,允许自定义优化策略,并能通过响应头反馈优化状…
本文记录了在使用 llama.cpp 的 RPC 服务进行本地 LLM 部署时遇到的“地址边界错误”。该问题出现在主节点上,禁用 RPC 后则消失。作者尝试了不同的显存层数设置,但问题依旧。RPC 服务器在工作节点上运行正常,但主节点无法成功连接或处理请求。此问题对需要在本地环境配置和运行 LLM RPC 服务的开发者具有参考价值,旨在寻求解决方案。
本文推荐了一份由Unsloth AI发布的本地LLM工具调用(Tool Calling)深度指南。该指南专注于如何赋能运行在本地环境(如使用llama.cpp)的大型语言模型,使其能够执行超越文本生成的实际操作,包括运行Python脚本、执行系统命令、进行复杂计算以及调用外部API。通过学习这份教程,开发者和研究人员可以显著提升本地LLM的实用性和自动化能…
本文详细对比了基于Blackwell架构的两种本地LLM推理系统:双NVIDIA RTX 5060 Ti(32GB显存池)与单RTX 5070 Ti(16GB)。作者出于隐私考虑,对Llama 3和Qwen等模型进行了实测。结果显示,双5060 Ti配置在每GB显存成本上更具优势(约$82/GB vs $126/GB),并能成功运行单16GB显卡无法加载的…
本文作者对 Strix Halo 模型进行了量化测试,发现自定义 imatrix Q4_K_S 版本在困惑度和模型体积上优于标准 Q4_K_M。在 ROCm 和 Vulkan 后端测试中,ROCm 在速度和能耗方面均显著优于 Vulkan,尤其是在处理长上下文时。作者计划未来主要使用 ROCm 作为 Strix Halo 的后端。
一位用户在尝试将 Qwen3-Coder 模型与 llama.cpp 和 Vulkan 结合使用时,遇到了 Safe Tensor 错误,导致模型无法正常运行。尽管用户表示 GPT OS 120B 模型在其环境中运行良好,但他仍希望能够成功部署 Qwen3。该用户正在寻求社区的帮助,以解决 Qwen3-Coder 在 Vulkan 和 llama.cpp …
一位用户分享了他在RTX 3060 12GB显卡上,通过llama.cpp运行本地大模型的经验。他目前使用Magnum-v4 9B、Qwen2.5-Coder-7B和Qwen3-8B,分别处理通用知识、编程和复杂推理任务。作者对现有配置满意,并向社区征集在2026年初,其他用户在类似12GB显存受限硬件上使用的模型,特别是编程、通用聊天和多功能性方面的最佳…
一位用户发帖询问,是否有社区成员成功在 CPU 上运行过 GLM-OCR 模型。他计划将其与 llama.cpp 结合使用,但发现目前缺乏 GLM-OCR 的 GGUF 格式模型文件,导致集成困难。该用户正在寻求解决方案或替代建议,以在 CPU 环境下部署 GLM-OCR 并实现与 llama.cpp 的兼容性。这反映了在特定硬件和软件生态中部署AI模型时…