社区Hacker News2026/04/02 19:045510
• AMD 开源本地 LLM 服务器 Lemonade
• GPU + NPU 协同加速推理/训练
AMD 推出的开源本地 LLM 服务器 Lemonade,结合 GPU 与 NPU 实现高效推理和训练。通过统一调度层自动选路,提供 Docker 镜像和一键脚本,降低部署门槛。采用 Apache 2.0 许可证,面向企业和个人开发者,支持多种模型格式,旨在推动本地 AI 应用落地。
按该标签聚合的大模型资讯列表(自动分类与标签提取)。共 5 篇文章。
AMD 推出的开源本地 LLM 服务器 Lemonade,结合 GPU 与 NPU 实现高效推理和训练。通过统一调度层自动选路,提供 Docker 镜像和一键脚本,降低部署门槛。采用 Apache 2.0 许可证,面向企业和个人开发者,支持多种模型格式,旨在推动本地 AI 应用落地。
LiteRT是TFLite的升级版,专注于设备端AI,提升GPU效率至1.4倍,支持NPU并优化GenAI模型部署。适用于边缘计算场景,增强AI在移动端和嵌入式设备的性能表现。
高通在 MWC 推出骁龙可穿戴平台至尊版,采用 3 nm 双核 NPU 架构,提供 10 TOPS 算力,可在手表、眼镜等微型设备本地运行 20 亿参数大模型,实现低功耗本地推理,推动个人 AI 全场景落地。
Google 将自研 NPU IP 完全开源,提供 RTL、编译链和参考软件。Synaptics 迅速将其落地,实现了在消费电子中的加速验证,MobileNet‑V2 推理功耗降低约 70%,吞吐提升 3.5 倍。此举降低 AI 硬件研发门槛,促进边缘 AI 生态快速发展。
一位用户分享了在英特尔NPU(13 TOPS)上成功运行Qwen3系列小型语言模型的经验。通过更新NPU驱动,性能从1-2 TPS提升至8-31 TPS。作者已将转换后的模型及运行指南上传至Hugging Face,方便其他用户尝试。他还提到OpenVino运行GGUF模型未成功,并期待LLAMA.cpp对NPU支持的PR合并,以简化NPU上的模型运行。