专题:npu

按该标签聚合的大模型资讯列表(自动分类与标签提取)。5 篇文章。

社区Hacker News2026/04/02 19:045510
AMD 开源本地 LLM 服务器 Lemonade
GPU + NPU 协同加速推理/训练

AMD 推出的开源本地 LLM 服务器 Lemonade,结合 GPU 与 NPU 实现高效推理和训练。通过统一调度层自动选路,提供 Docker 镜像和一键脚本,降低部署门槛。采用 Apache 2.0 许可证,面向企业和个人开发者,支持多种模型格式,旨在推动本地 AI 应用落地。

社区Reddit r/LocalLLaMA2026/02/08 21:1250

一位用户分享了在英特尔NPU(13 TOPS)上成功运行Qwen3系列小型语言模型的经验。通过更新NPU驱动,性能从1-2 TPS提升至8-31 TPS。作者已将转换后的模型及运行指南上传至Hugging Face,方便其他用户尝试。他还提到OpenVino运行GGUF模型未成功,并期待LLAMA.cpp对NPU支持的PR合并,以简化NPU上的模型运行。