社区Reddit r/LocalLLaMA2026/02/09 20:0950
作者将基于LFM2-350M的自研推理引擎从Python(或类似)移植到纯C语言。此前,该引擎在旧款Intel Core i5笔记本上仅有每秒4个token的速度。通过纯C语言重写单批次推理部分,并利用混合缓存及CBLAS GEMM API,作者成功将速度提升了3倍,达到每秒12个token。该项目从零开始构建,未使用gguf文件,且代码已在GitHub开…
按该标签聚合的大模型资讯列表(自动分类与标签提取)。共 1 篇文章。