专题：inference-engine

将基于LFM2-350M的自研推理引擎移植到纯C语言

社区Reddit r/LocalLLaMA2026/02/09 20:0950

作者将基于LFM2-350M的自研推理引擎从Python（或类似）移植到纯C语言。此前，该引擎在旧款Intel Core i5笔记本上仅有每秒4个token的速度。通过纯C语言重写单批次推理部分，并利用混合缓存及CBLAS GEMM API，作者成功将速度提升了3倍，达到每秒12个token。该项目从零开始构建，未使用gguf文件，且代码已在GitHub开…

推理引擎 C 语言编程性能优化大语言模型推理开源项目