专题：gpu-memory

按该标签聚合的大模型资讯列表（自动分类与标签提取）。共 3 篇文章。

NVIDIA GreenBoost：透明扩展GPU显存的新技术方案

原文

媒体Lobsters AI2026/03/19 07:036820

• GPU显存透明扩展技术

• 利用系统内存和NVMe SSD

NVIDIA GreenBoost技术通过系统内存和NVMe透明扩展GPU显存，提升AI计算效率。适用于显存不足的训练和推理场景，依赖CUDA和驱动程序实现，具备良好的资源调度能力。

GPU 内存管理 NVIDIA 显存管理 CUDA

LLM本地推理深度解析：llama-server与Ollama的GPU/CPU内存管理与大模型卸载策略

原文

社区Reddit r/LocalLLaMA2026/02/12 19:0260

本文探讨了LLM本地推理中，llama-server与Ollama在GPU/CPU内存管理上的差异及大模型部署挑战。用户从Ollama转向llama-server后，发现后者在模型内存分配上行为独特。具体表现为，即使模型大小（如21GB的Qwen3-Coder-30B）远超显卡显存（12GB），llama-server似乎仍优先且仅使用显存，系统内存利用率…

大语言模型推理显存管理 CPU内存模型卸载 Ollama

升级本地大模型服务器：如何平衡能力与速度？

原文

社区Reddit r/LocalLLaMA2026/02/09 22:1480

一位用户正在为本地隔离环境的大模型服务器寻求升级建议，预算约 5 万美元。现有配置为双路 Xeon Gold 6242、768GB DDR4 内存和三块 RTX Quadro 8000（144GB VRAM）。用户面临如何在提升模型能力（运行更大模型）与提高处理速度（TPS）之间进行权衡的难题，尤其是不确定部分内存卸载对性能的影响以及内存/CPU 升级的性…

本地大模型硬件升级性能优化显存管理内存卸载