Apple Silicon M3 Ultra 上的 LLM 性能实测：GPT-OSS:120B 领跑，Nemotron Nano 潜力初显

Reddit r/LocalLLaMA2026/02/15 11:28机翻/自动摘要/自动分类

内容评分

技术含量

8/10

营销水分

4/10

摘要

本文对 Apple Silicon M3 Ultra 平台上的大型语言模型（LLM）进行了性能实测。在 llama.cpp 环境下，使用 10000 token 的深度上下文生成任务作为评测标准，GPT-OSS:120B 以其出色的速度和通用性脱颖而出，成为当前中等硬件配置下的首选。Nemotron Nano 因其参数规模与速度的良好平衡展现出潜力。GLM-4.7-Flash 在长上下文处理上的性能瓶颈，使得新晋的 Qwen3-coder-next 在编码任务上可能成为更优选择。评测为开发者和研究人员提供了宝贵的硬件选型和模型部署参考。

正文

在当前中等价位硬件环境下，针对 Apple Silicon M3 Ultra（256GB 内存）平台，使用 llama.cpp 工具进行了一项性能对比评测。测试基于 llama-bench 数据集，模拟了 10000 的深度上下文生成任务（输出 500 ），该场景被认为是评估模型在代理式编码应用中表现的关键指标。

评测结果显示，GPT-OSS:120B 在性能与参数规模的平衡上表现尤为突出，尽管参数量更大，但其运行速度超越了 GLM-4.7-Flash、Qwen3-a3b 和 Qwen-Next-a3b，成为通用任务的首选。

Nemotron Nano 参数规模虽大，但运行速度显著更快，其性能潜力值得进一步深入挖掘。

GLM-4.7-Flash 在处理长上下文时速度下降明显，这对其作为日常编码任务的首选模型造成了影响。然而，新出现的 Qwen3-coder-next 在速度上可能与 GLM-4.7-Flash 相当，且在编码性能上可能更具优势，成为下一阶段的重点测试对象。

本次评测环境配置为：

硬件：Apple Silicon M3 Ultra (256GB RAM)
工具：llama.cpp
数据来源：llama-bench ( 10000 tokens, 输出长度 500 tokens)
测试场景：10000 深度生成任务，模拟代理式编码应用。

Apple Silicon M3 Ultra 上的 LLM 性能实测：GPT-OSS:120B 领跑，Nemotron Nano 潜力初显

内容评分

摘要

正文

标签