首页/详情

Apple Silicon M3 Ultra 上的 LLM 性能实测:GPT-OSS:120B 领跑,Nemotron Nano 潜力初显

Reddit r/LocalLLaMA2026/02/15 11:28机翻/自动摘要/自动分类
3 阅读

内容评分

技术含量
8/10
营销水分
4/10

摘要

本文对 Apple Silicon M3 Ultra 平台上的大型语言模型(LLM)进行了性能实测。在 llama.cpp 环境下,使用 10000 token 的深度上下文生成任务作为评测标准,GPT-OSS:120B 以其出色的速度和通用性脱颖而出,成为当前中等硬件配置下的首选。Nemotron Nano 因其参数规模与速度的良好平衡展现出潜力。GLM-4.7-Flash 在长上下文处理上的性能瓶颈,使得新晋的 Qwen3-coder-next 在编码任务上可能成为更优选择。评测为开发者和研究人员提供了宝贵的硬件选型和模型部署参考。

正文

在当前中等价位硬件环境下,针对 Apple Silicon M3 Ultra(256GB 内存)平台,使用 llama.cpp 工具进行了一项 性能对比评测。测试基于 llama-bench 数据集,模拟了 10000 的深度上下文生成任务(输出 500 ),该场景被认为是评估模型在代理式编码应用中表现的关键指标。

评测结果显示,GPT-OSS:120B 在性能与参数规模的平衡上表现尤为突出,尽管参数量更大,但其运行速度超越了 GLM-4.7-Flash、Qwen3-a3b 和 Qwen-Next-a3b,成为通用任务的首选。

Nemotron Nano 参数规模虽大,但运行速度显著更快,其性能潜力值得进一步深入挖掘。

GLM-4.7-Flash 在处理长上下文时速度下降明显,这对其作为日常编码任务的首选模型造成了影响。然而,新出现的 Qwen3-coder-next 在速度上可能与 GLM-4.7-Flash 相当,且在编码性能上可能更具优势,成为下一阶段的重点测试对象。

本次评测环境配置为:

  • 硬件:Apple Silicon M3 Ultra (256GB RAM)
  • 工具:llama.cpp
  • 数据来源:llama-bench ( 10000 tokens, 输出长度 500 tokens)
  • 测试场景:10000 深度生成任务,模拟代理式编码应用。

标签