专题：on-device-ai

按该标签聚合的大模型资讯列表（自动分类与标签提取）。共 4 篇文章。

MetalRT：Apple Silicon上首个原生多模态AI推理引擎，LLM/STT/TTS性能全面碾压主流框架

社区Hacker News2026/03/11 01:146950

• MetalRT是Apple Silicon上首个原生多模态AI推理引擎

• LLM推理速度达658 token/s，远超lama.cpp和MLX

RunAnywhere团队推出MetalRT引擎，专为Apple Silicon打造，通过定制Metal着色器实现LLM、STT、TTS三模态超高速本地推理，性能全面超越lama.cpp、MLX等主流框架。配套开源工具RCLI支持全离线语音交互，首个token延迟低至6.6ms，为设备端AI应用提供全新基础设施。

MetalRT推理引擎 Apple Silicon Metal计算着色器 RCLI语音工具链设备端AI

苹果Ferret-UI Lite：端侧AI新范式，赋能应用交互智能化

原文

媒体InfoQ 中文2026/02/28 16:005730

苹果发布了端侧AI模型Ferret-UI Lite，专注于UI的查看与控制。该模型能在设备本地运行，提供快速响应和隐私保护，使用户能通过自然语言指令与应用程序UI进行交互。Ferret-UI Lite有望通过融合VLM和强化学习等技术，降低交互门槛，提升用户体验，并为苹果生态系统注入新的AI竞争力。

AI模型设备端AI 用户界面设计苹果

Pocket LLM：设备端离线私密AI聊天

原文

社区Reddit r/LocalLLaMA2026/02/09 20:4520

Pocket LLM 是一款创新的AI应用，专为iPhone、iPad和Mac用户设计，旨在提供极致的本地化和隐私保护。用户无需互联网连接，即可在自己的设备上直接运行强大的AI模型，进行离线聊天。这一方案确保了所有数据和对话的完全私密性，让AI体验完全掌握在用户手中，为追求数据安全和便捷离线AI交互的用户提供了理想选择。

Pocket LLM 设备端AI 离线聊天私有AI 苹果设备

终于发现：我的机器NPU终于派上用场了

原文

社区Reddit r/LocalLLaMA2026/02/08 21:1250

一位用户分享了在英特尔NPU（13 TOPS）上成功运行Qwen3系列小型语言模型的经验。通过更新NPU驱动，性能从1-2 TPS提升至8-31 TPS。作者已将转换后的模型及运行指南上传至Hugging Face，方便其他用户尝试。他还提到OpenVino运行GGUF模型未成功，并期待LLAMA.cpp对NPU支持的PR合并，以简化NPU上的模型运行。