专题:cpu-memory

按该标签聚合的大模型资讯列表(自动分类与标签提取)。1 篇文章。

社区Reddit r/LocalLLaMA2026/02/12 19:0260

本文探讨了LLM本地推理中,llama-server与Ollama在GPU/CPU内存管理上的差异及大模型部署挑战。用户从Ollama转向llama-server后,发现后者在模型内存分配上行为独特。具体表现为,即使模型大小(如21GB的Qwen3-Coder-30B)远超显卡显存(12GB),llama-server似乎仍优先且仅使用显存,系统内存利用率…