Ggml.ai 与 Hugging Face 携手加速本地大模型部署：开源推理框架全新落地

近日，开源推理框架 ggml 的维护者 Ggml.ai 正式宣布与模型托管平台 Hugging Face 达成深度合作，旨在为本地（On‑Device）AI 应用提供更高效、低成本的推理解决方案。双方的合作重点包括：

ggml 后端集成到 Transformers——Hugging Face 将在 transformers 库中提供 ggml 推理后端，使用户能够一行代码将模型切换到本地量化推理模式。
模型量化与压缩标准化——Ggml.ai 提供的 4‑bit、5‑bit、8‑bit 量化工具将直接在 Hugging Face Hub 上标记，用户可通过 model.quantized 标签快速检索已量化模型。
统一的部署 CLI——推出 huggingface-cli ggml pull <model-id>，一键下载并自动完成模型的 ggml 格式转换，省去手动编译的繁琐步骤。
生态激励计划——对贡献 ggml 适配插件的开源贡献者提供 Hugging Face 赞助的算力配额，鼓励社区共同完善本地推理生态。

技术细节方面，ggml 采用 无依赖 C++ 实现，通过 SIMD（AVX2/AVX512、NEON）和多线程调度实现了在 CPU 上接近 GPU 的吞吐量。结合 Hugging Face 的 model‑card 元数据，用户可以在不离线网络的前提下，直接在笔记本、边缘服务器甚至移动设备上运行 LLaMA、Mistral、Phi‑2 等数十亿参数模型。

实战示例（Python）:

from transformers import AutoModelForCausalLM, AutoTokenizer, pipeline

model_id = "huggingface/llama-7b-ggml-quantized"
tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(model_id, device_map="cpu", trust_remote_code=True, backend="ggml")

generator = pipeline("text-generation", model=model, tokenizer=tokenizer)
print(generator("本地 AI 的未来是", max_new_tokens=50))

该合作标志着本地 AI 从实验室走向生产环境的关键一步，也为数据隐私、低带宽场景提供了可落地的技术路径。

Ggml.ai 与 Hugging Face 携手加速本地大模型部署：开源推理框架全新落地

内容评分

摘要

正文

标签