复现Exo DGX Spark + Mac Studio混合推理实验：是否遗漏了关键点？

Reddit r/LocalLLaMA2026/02/23 01:26机翻/自动摘要/自动分类

内容评分

技术含量

8/10

营销水分

5/10

摘要

本文作者尝试复现Exo在DGX Spark与Mac Studio混合集群上的Llama-3.1 8B训练加速实验，但因Blackwell显卡不被MLX CUDA支持而失败。文章分析了实验环境、问题原因及现有替代方案，指出Exo的Spark功能尚未成熟，但其跨平台集群能力仍具吸引力。

正文

Exo在博客中展示了通过将预处理任务分配给DGX Spark，推理任务分配给Mac Studio，实现Llama-3.1 8B模型训练速度提升2.8倍的实验。由于拥有这两台设备，我尝试复现该结果，但遇到了一些问题。首先，安装了mlx-cuda-12后，MLX工具报告GPU可用，但使用CUDA 13.0进行推理时出现NVRTC JIT编译错误，导致推理速度极低（仅0.07 /秒）。尝试使用mlx-cuda-13也未解决问题。进一步分析发现，DGX Spark的Blackwell显卡（sm_120/sm_121）未被当前MLX CUDA版本支持。根据Exo的PLATFORMS.md文档，DGX Spark的GPU支持仍处于‘计划中’阶段，尚未正式发布。此外，NVIDIA论坛和GitHub上的相关问题也表明，目前尚无人成功复现Exo的混合推理方案。尽管如此，目前仍可通过lama.cpp、vLLM或TensorRT-等工具在DGX Spark上进行训练，并利用lama.cpp的RPC功能实现跨机器数据分割，但网络通信可能成为性能瓶颈。

复现Exo DGX Spark + Mac Studio混合推理实验：是否遗漏了关键点？

内容评分

摘要

正文

标签