复现Exo DGX Spark + Mac Studio混合推理实验:是否遗漏了关键点?
Reddit r/LocalLLaMA2026/02/23 01:26机翻/自动摘要/自动分类
3 阅读
内容评分
技术含量
8/10
营销水分
5/10
摘要
本文作者尝试复现Exo在DGX Spark与Mac Studio混合集群上的Llama-3.1 8B训练加速实验,但因Blackwell显卡不被MLX CUDA支持而失败。文章分析了实验环境、问题原因及现有替代方案,指出Exo的Spark功能尚未成熟,但其跨平台集群能力仍具吸引力。
正文
Exo在博客中展示了通过将预处理任务分配给DGX Spark,推理任务分配给Mac Studio,实现Llama-3.1 8B模型训练速度提升2.8倍的实验。由于拥有这两台设备,我尝试复现该结果,但遇到了一些问题。首先,安装了mlx-cuda-12后,MLX工具报告GPU可用,但使用CUDA 13.0进行推理时出现NVRTC JIT编译错误,导致推理速度极低(仅0.07 /秒)。尝试使用mlx-cuda-13也未解决问题。进一步分析发现,DGX Spark的Blackwell显卡(sm_120/sm_121)未被当前MLX CUDA版本支持。根据Exo的PLATFORMS.md文档,DGX Spark的GPU支持仍处于‘计划中’阶段,尚未正式发布。此外,NVIDIA论坛和GitHub上的相关问题也表明,目前尚无人成功复现Exo的混合推理方案。尽管如此,目前仍可通过lama.cpp、vLLM或TensorRT-等工具在DGX Spark上进行训练,并利用lama.cpp的RPC功能实现跨机器数据分割,但网络通信可能成为性能瓶颈。