专题：intel-npu

终于发现：我的机器NPU终于派上用场了

社区Reddit r/LocalLLaMA2026/02/08 21:1250

一位用户分享了在英特尔NPU（13 TOPS）上成功运行Qwen3系列小型语言模型的经验。通过更新NPU驱动，性能从1-2 TPS提升至8-31 TPS。作者已将转换后的模型及运行指南上传至Hugging Face，方便其他用户尝试。他还提到OpenVino运行GGUF模型未成功，并期待LLAMA.cpp对NPU支持的PR合并，以简化NPU上的模型运行。