专题：cpu-memory

LLM本地推理深度解析：llama-server与Ollama的GPU/CPU内存管理与大模型卸载策略

社区Reddit r/LocalLLaMA2026/02/12 19:0260

本文探讨了LLM本地推理中，llama-server与Ollama在GPU/CPU内存管理上的差异及大模型部署挑战。用户从Ollama转向llama-server后，发现后者在模型内存分配上行为独特。具体表现为，即使模型大小（如21GB的Qwen3-Coder-30B）远超显卡显存（12GB），llama-server似乎仍优先且仅使用显存，系统内存利用率…

大语言模型推理显存管理 CPU内存模型卸载 Ollama框架