专题：cpu-inference

按该标签聚合的大模型资讯列表（自动分类与标签提取）。共 3 篇文章。

TinyTeapot：7700万参数CPU端LLM，40 tok/s速度开源运行

社区Reddit r/LocalLLaMA2026/02/23 22:034730

开源项目TinyTeapot发布，这是一个参数量为7700万的上下文感知LLM。其主要亮点是能在普通CPU上实现约40 token/秒的处理速度，显著降低了部署AI模型的硬件门槛。TinyTeapot的轻量化设计使其适用于资源受限环境和边缘设备，为开发者提供了便捷的AI应用部署方案。该模型已开源，鼓励社区进行进一步的创新和优化。

LLM模型 CPU 推理开源项目模型优化技术

GLM-OCR 在 CPU 上运行

原文

社区Reddit r/LocalLLaMA2026/02/08 19:2840

一位用户发帖询问，是否有社区成员成功在 CPU 上运行过 GLM-OCR 模型。他计划将其与 llama.cpp 结合使用，但发现目前缺乏 GLM-OCR 的 GGUF 格式模型文件，导致集成困难。该用户正在寻求解决方案或替代建议，以在 CPU 环境下部署 GLM-OCR 并实现与 llama.cpp 的兼容性。这反映了在特定硬件和软件生态中部署AI模型时…

GLM-OCR CPU 推理 llama.cpp GGUF格式模型部署

voxtral.c: 使用纯C语言实现Mistral Voxtral实时4B语音到文本模型的推理

原文

媒体Lobsters AI2026/02/06 15:4430

Mistral的voxtral.c是一个基于纯C语言实现的推理引擎，用于Voxtral实时4B语音到文本模型。它旨在提高推理效率并降低成本，适用于语音数据处理场景。该技术为开发者提供了对模型内部逻辑的深入控制，有助于优化性能和资源管理。

语音识别 CPU 推理边缘计算 C 语言编程