首页/详情

终于发现:我的机器NPU终于派上用场了

Reddit r/LocalLLaMA2026/02/08 21:12机翻/自动摘要/自动分类
5 阅读

摘要

一位用户分享了在英特尔NPU(13 TOPS)上成功运行Qwen3系列小型语言模型的经验。通过更新NPU驱动,性能从1-2 TPS提升至8-31 TPS。作者已将转换后的模型及运行指南上传至Hugging Face,方便其他用户尝试。他还提到OpenVino运行GGUF模型未成功,并期待LLAMA.cpp对NPU支持的PR合并,以简化NPU上的模型运行。

正文

大家好,我成功地在我的英特尔NPU(13 TOPS)上运行了几款小型语言模型(SLM),并获得了相当不错的性能。如果大家还不知道,我想分享一下这个发现。(如果已经众所周知,请原谅)。大家可以跳到视频的55秒处查看生成性能。(请原谅我的糟糕音质)

性能数据(仅限每秒生成词元数)

  • Qwen3-4B-Thinking-2507 - 8 - 16 TPS(每秒数)
  • Qwen3-4B-instruct-2507 - 8 - 16 TPS
  • Qwen3-0.6B - 26 - 31 TPS

之前,由于我没有更新NPU驱动,性能非常差(1-2 TPS)。安装最新的驱动后,性能有了显著提升。

操作指南:

  • 我已经将上述模型转换并上传到Hugging Face,你可以在这里找到它们:https://huggingface.co/anubhav200。每个模型旁边都附有如何在NPU上安装所需组件的指南。

附注:

  • 顺便说一句,也有方法在OpenVino上运行GGUF模型,但我未能成功。
  • 我正在等待这个PR合并,之后我希望我们可以直接使用LLAMA.cpp在NPU上运行模型:https://github.com/ggml-org/llama.cpp/pull/15307

标签