RunAnywhere团队推出MetalRT引擎,专为Apple Silicon打造,通过定制Metal着色器实现LLM、STT、TTS三模态超高速本地推理,性能全面超越lama.cpp、MLX等主流框架。配套开源工具RCLI支持全离线语音交互,首个token延迟低至6.6ms,为设备端AI应用提供全新基础设施。
专题:apple-silicon
按该标签聚合的大模型资讯列表(自动分类与标签提取)。共 7 篇文章。
Docker Model Runner 新增对 Apple Silicon 的支持,通过 vllm-metal 后端实现高性能 LLM 推理。该后端整合 MLX 和 PyTorch,利用统一内存机制和优化技术提升吞吐量,降低开发成本。适用于 macOS、Linux 和 WSL2 平台,支持多种量化模型。
本文详细介绍了开发者利用Apple MLX框架在M系列Mac上构建本地文本转语音(TTS)应用Murmur的经验。面对云端TTS的订阅限制和隐私担忧,该项目旨在提供一个完全离线、高性能的解决方案。开发过程中发现,MLX在Apple Silicon上实现了超实时推理速度,并通过神经引擎优化资源利用,确保了数据隐私。尽管是本地应用,其音质已能媲美云服务。Mur…
Qwen3-ASR模型现已通过MLX平台在Apple Silicon上实现原生运行,为M系列GPU带来了高性能的自动语音识别能力。该重实现提供了0.6B和1.7B两种模型规模,支持52种语言,并具备词级时间戳、4位/8位量化、流式解码等高级特性。性能测试显示,其在M4 Pro上识别速度快,错误率低,且内存占用高效。这一进展为Apple生态系统中的AI应用开…
本文对 Apple Silicon M3 Ultra 平台上的大型语言模型(LLM)进行了性能实测。在 llama.cpp 环境下,使用 10000 token 的深度上下文生成任务作为评测标准,GPT-OSS:120B 以其出色的速度和通用性脱颖而出,成为当前中等硬件配置下的首选。Nemotron Nano 因其参数规模与速度的良好平衡展现出潜力。GLM…
Vesta 是一款专为 macOS Apple Silicon 设计的原生 AI 应用,旨在提供一体化的本地与云端 AI 模型运行体验。它独特地集成了 Apple Intelligence、MLX、llama.cpp 等本地推理框架,并支持 OpenAI、HuggingFace 等 31+ 云端 API。核心亮点包括创新的自然语言接口(NLI)和智能体助手…
本文介绍了一种在 Apple Silicon 设备上实现 AI 代理完全本地化语音交互的方案。通过集成 Parakeet STT 和 Kokoro TTS,实现了低延迟的语音识别和合成,消除了对云服务的依赖。这种方式极大地提升了 AI 代理的使用便捷性,使用户可以随时随地通过语音进行交互。文章还提及了集成 3D 虚拟化身以增强交互的自然感,并邀请社区分享类…