llama.cpp 多线程陷阱:停止信号、上下文切换与 Prompt Cache 的三大致命 Bug原文社区Reddit r/LocalLLaMA2026/02/20 21:182830文章揭示了 llama.cpp 在多线程环境下的三大致命缺陷:停止信号未传递导致模型继续运行、线程切换时上下文混淆以及 Prompt Cache 未彻底清理导致性能下降。针对每个问题提供了实现层面的修复思路,帮助开发者提升本地 LLM 部署的可靠性与效率。llama.cpp多线程停止信号提示缓存大语言模型