Apple Silicon M3 Ultra 上的 LLM 性能实测:GPT-OSS:120B 领跑,Nemotron Nano 潜力初显
Reddit r/LocalLLaMA2026/02/15 11:28机翻/自动摘要/自动分类
3 阅读
内容评分
技术含量
8/10
营销水分
4/10
摘要
本文对 Apple Silicon M3 Ultra 平台上的大型语言模型(LLM)进行了性能实测。在 llama.cpp 环境下,使用 10000 token 的深度上下文生成任务作为评测标准,GPT-OSS:120B 以其出色的速度和通用性脱颖而出,成为当前中等硬件配置下的首选。Nemotron Nano 因其参数规模与速度的良好平衡展现出潜力。GLM-4.7-Flash 在长上下文处理上的性能瓶颈,使得新晋的 Qwen3-coder-next 在编码任务上可能成为更优选择。评测为开发者和研究人员提供了宝贵的硬件选型和模型部署参考。
正文
在当前中等价位硬件环境下,针对 Apple Silicon M3 Ultra(256GB 内存)平台,使用 llama.cpp 工具进行了一项 性能对比评测。测试基于 llama-bench 数据集,模拟了 10000 的深度上下文生成任务(输出 500 ),该场景被认为是评估模型在代理式编码应用中表现的关键指标。
评测结果显示,GPT-OSS:120B 在性能与参数规模的平衡上表现尤为突出,尽管参数量更大,但其运行速度超越了 GLM-4.7-Flash、Qwen3-a3b 和 Qwen-Next-a3b,成为通用任务的首选。
Nemotron Nano 参数规模虽大,但运行速度显著更快,其性能潜力值得进一步深入挖掘。
GLM-4.7-Flash 在处理长上下文时速度下降明显,这对其作为日常编码任务的首选模型造成了影响。然而,新出现的 Qwen3-coder-next 在速度上可能与 GLM-4.7-Flash 相当,且在编码性能上可能更具优势,成为下一阶段的重点测试对象。
本次评测环境配置为:
- 硬件:Apple Silicon M3 Ultra (256GB RAM)
- 工具:llama.cpp
- 数据来源:llama-bench ( 10000 tokens, 输出长度 500 tokens)
- 测试场景:10000 深度生成任务,模拟代理式编码应用。