升级本地大模型服务器:如何平衡能力与速度?
摘要
一位用户正在为本地隔离环境的大模型服务器寻求升级建议,预算约 5 万美元。现有配置为双路 Xeon Gold 6242、768GB DDR4 内存和三块 RTX Quadro 8000(144GB VRAM)。用户面临如何在提升模型能力(运行更大模型)与提高处理速度(TPS)之间进行权衡的难题,尤其是不确定部分内存卸载对性能的影响以及内存/CPU 升级的性价比。主要需求是 20-30 TPS,同时希望具备运行各种未量化模型的能力以供实验。
正文
我一直在 Dell Precision 7920 Rack 服务器上运行本地,该服务器配备双路 Xeon Gold 6242 处理器、768GB DDR4 内存以及三块现已过时的 RTX Quadro 8000 显卡(总计 144GB 显存)。由于需要处理敏感数据,整个环境是隔离且本地化的。
预算方面,我们获得了约 5 万美元的升级资金。最高可达 30 万美元,但这需要一个充分的理由,而我目前认为我们还没有达到那个程度。
无论如何,我正在努力思考如何最有效地利用这笔资金,以在每秒处理的请求数(TPS)和运行尽可能大的模型的能力之间取得良好平衡。问题在于,我不确定部分内存卸载(RAM offloading)对性能的影响有多大。购买三块 RTX 6000 Pro 替换现有的 RTX Quadro 8000 似乎是一个简单的升级,对于能完全载入显存的模型,TPS 肯定会非常出色。然而,我不确定购买大量 RTX 5090 显卡和特殊的服务器机架是否能带来更高的性价比。
但是,一旦开始运行大型模型并将其部分卸载到内存中,我不确定升级内存/CPU 或其他组件是否还有意义。如果只在 GPU 上运行 模型(Mixture of Experts)的激活层,是否会受到内存速度的瓶颈?升级 768GB DDR4 内存到更快的型号是否有价值?我认为机架还有空间可以增加内存,所以另一种选择是扩展内存容量,以便在必要时能容纳更大的模型。
我们的主要用例需要不错的 TPS,20-30 TPS 以上都可以接受。然而,理论上能够运行市面上所有模型(最好是未量化版本)的可能性对于实验也很重要(尽管在这种情况下可以接受较低的 TPS)。
我非常感谢关于如何花费这笔钱的任何建议,因为目前很难准确找到瓶颈所在,并弄清楚如何最大化资金的价值。