升级本地大模型服务器：如何平衡能力与速度？

我一直在 Dell Precision 7920 Rack 服务器上运行本地，该服务器配备双路 Xeon Gold 6242 处理器、768GB DDR4 内存以及三块现已过时的 RTX Quadro 8000 显卡（总计 144GB 显存）。由于需要处理敏感数据，整个环境是隔离且本地化的。

预算方面，我们获得了约 5 万美元的升级资金。最高可达 30 万美元，但这需要一个充分的理由，而我目前认为我们还没有达到那个程度。

无论如何，我正在努力思考如何最有效地利用这笔资金，以在每秒处理的请求数（TPS）和运行尽可能大的模型的能力之间取得良好平衡。问题在于，我不确定部分内存卸载（RAM offloading）对性能的影响有多大。购买三块 RTX 6000 Pro 替换现有的 RTX Quadro 8000 似乎是一个简单的升级，对于能完全载入显存的模型，TPS 肯定会非常出色。然而，我不确定购买大量 RTX 5090 显卡和特殊的服务器机架是否能带来更高的性价比。

但是，一旦开始运行大型模型并将其部分卸载到内存中，我不确定升级内存/CPU 或其他组件是否还有意义。如果只在 GPU 上运行模型（Mixture of Experts）的激活层，是否会受到内存速度的瓶颈？升级 768GB DDR4 内存到更快的型号是否有价值？我认为机架还有空间可以增加内存，所以另一种选择是扩展内存容量，以便在必要时能容纳更大的模型。

我们的主要用例需要不错的 TPS，20-30 TPS 以上都可以接受。然而，理论上能够运行市面上所有模型（最好是未量化版本）的可能性对于实验也很重要（尽管在这种情况下可以接受较低的 TPS）。

我非常感谢关于如何花费这笔钱的任何建议，因为目前很难准确找到瓶颈所在，并弄清楚如何最大化资金的价值。

升级本地大模型服务器：如何平衡能力与速度？

摘要

正文

标签