专题:on-device-ai

按该标签聚合的大模型资讯列表(自动分类与标签提取)。4 篇文章。

社区Hacker News2026/03/11 01:146950
MetalRT是Apple Silicon上首个原生多模态AI推理引擎
LLM推理速度达658 token/s,远超lama.cpp和MLX

RunAnywhere团队推出MetalRT引擎,专为Apple Silicon打造,通过定制Metal着色器实现LLM、STT、TTS三模态超高速本地推理,性能全面超越lama.cpp、MLX等主流框架。配套开源工具RCLI支持全离线语音交互,首个token延迟低至6.6ms,为设备端AI应用提供全新基础设施。

媒体InfoQ 中文2026/02/28 16:005730

苹果发布了端侧AI模型Ferret-UI Lite,专注于UI的查看与控制。该模型能在设备本地运行,提供快速响应和隐私保护,使用户能通过自然语言指令与应用程序UI进行交互。Ferret-UI Lite有望通过融合VLM和强化学习等技术,降低交互门槛,提升用户体验,并为苹果生态系统注入新的AI竞争力。

社区Reddit r/LocalLLaMA2026/02/09 20:4520

Pocket LLM 是一款创新的AI应用,专为iPhone、iPad和Mac用户设计,旨在提供极致的本地化和隐私保护。用户无需互联网连接,即可在自己的设备上直接运行强大的AI模型,进行离线聊天。这一方案确保了所有数据和对话的完全私密性,让AI体验完全掌握在用户手中,为追求数据安全和便捷离线AI交互的用户提供了理想选择。

社区Reddit r/LocalLLaMA2026/02/08 21:1250

一位用户分享了在英特尔NPU(13 TOPS)上成功运行Qwen3系列小型语言模型的经验。通过更新NPU驱动,性能从1-2 TPS提升至8-31 TPS。作者已将转换后的模型及运行指南上传至Hugging Face,方便其他用户尝试。他还提到OpenVino运行GGUF模型未成功,并期待LLAMA.cpp对NPU支持的PR合并,以简化NPU上的模型运行。