终于发现：我的机器NPU终于派上用场了

Reddit r/LocalLLaMA2026/02/08 21:12机翻/自动摘要/自动分类

摘要

一位用户分享了在英特尔NPU（13 TOPS）上成功运行Qwen3系列小型语言模型的经验。通过更新NPU驱动，性能从1-2 TPS提升至8-31 TPS。作者已将转换后的模型及运行指南上传至Hugging Face，方便其他用户尝试。他还提到OpenVino运行GGUF模型未成功，并期待LLAMA.cpp对NPU支持的PR合并，以简化NPU上的模型运行。

正文

大家好，我成功地在我的英特尔NPU（13 TOPS）上运行了几款小型语言模型（SLM），并获得了相当不错的性能。如果大家还不知道，我想分享一下这个发现。（如果已经众所周知，请原谅）。大家可以跳到视频的55秒处查看生成性能。（请原谅我的糟糕音质）

性能数据（仅限每秒生成词元数）

Qwen3-4B-Thinking-2507 - 8 - 16 TPS（每秒数）
Qwen3-4B-instruct-2507 - 8 - 16 TPS
Qwen3-0.6B - 26 - 31 TPS

之前，由于我没有更新NPU驱动，性能非常差（1-2 TPS）。安装最新的驱动后，性能有了显著提升。

操作指南：

我已经将上述模型转换并上传到Hugging Face，你可以在这里找到它们：https://huggingface.co/anubhav200。每个模型旁边都附有如何在NPU上安装所需组件的指南。

附注：

顺便说一句，也有方法在OpenVino上运行GGUF模型，但我未能成功。
我正在等待这个PR合并，之后我希望我们可以直接使用LLAMA.cpp在NPU上运行模型：https://github.com/ggml-org/llama.cpp/pull/15307

终于发现：我的机器NPU终于派上用场了

摘要

正文

性能数据（仅限每秒生成词元数）

操作指南：

标签