官方Simon Willison2026/03/19 07:566840
• 苹果技术实现本地运行大模型
• 量化优化降低内存占用
Dan Woods利用苹果LLM in a Flash技术,在本地运行Qwen 397B模型,通过量化和专家混合架构优化内存使用。实验显示,4位量化可实现每秒4.36个令牌的推理速度,且输出质量与4位精度无明显差异。该成果对本地大模型部署具有重要参考价值。
按该标签聚合的大模型资讯列表(自动分类与标签提取)。共 4 篇文章。
Dan Woods利用苹果LLM in a Flash技术,在本地运行Qwen 397B模型,通过量化和专家混合架构优化内存使用。实验显示,4位量化可实现每秒4.36个令牌的推理速度,且输出质量与4位精度无明显差异。该成果对本地大模型部署具有重要参考价值。
本文作者尝试复现Exo在DGX Spark与Mac Studio混合集群上的Llama-3.1 8B训练加速实验,但因Blackwell显卡不被MLX CUDA支持而失败。文章分析了实验环境、问题原因及现有替代方案,指出Exo的Spark功能尚未成熟,但其跨平台集群能力仍具吸引力。
Qwen3-ASR模型现已通过MLX平台在Apple Silicon上实现原生运行,为M系列GPU带来了高性能的自动语音识别能力。该重实现提供了0.6B和1.7B两种模型规模,支持52种语言,并具备词级时间戳、4位/8位量化、流式解码等高级特性。性能测试显示,其在M4 Pro上识别速度快,错误率低,且内存占用高效。这一进展为Apple生态系统中的AI应用开…
LispE是一个开源Lisp语言,通过集成llama.cpp、tiktoken、mlx和PyTorch等库,实现了对AI模型的高效加载与推理。其API简洁,性能优于Python,尤其在处理GGUF模型和MLX指令集时表现突出。LispE支持直接使用C++代码进行高性能计算,为开发者和研究人员提供了更灵活的AI开发工具。