社区Reddit r/LocalLLaMA2026/02/09 20:0950
作者将基于LFM2-350M的自研推理引擎从Python(或类似)移植到纯C语言。此前,该引擎在旧款Intel Core i5笔记本上仅有每秒4个token的速度。通过纯C语言重写单批次推理部分,并利用混合缓存及CBLAS GEMM API,作者成功将速度提升了3倍,达到每秒12个token。该项目从零开始构建,未使用gguf文件,且代码已在GitHub开…
按该标签聚合的大模型资讯列表(自动分类与标签提取)。共 2 篇文章。
作者将基于LFM2-350M的自研推理引擎从Python(或类似)移植到纯C语言。此前,该引擎在旧款Intel Core i5笔记本上仅有每秒4个token的速度。通过纯C语言重写单批次推理部分,并利用混合缓存及CBLAS GEMM API,作者成功将速度提升了3倍,达到每秒12个token。该项目从零开始构建,未使用gguf文件,且代码已在GitHub开…
Mistral的voxtral.c是一个基于纯C语言实现的推理引擎,用于Voxtral实时4B语音到文本模型。它旨在提高推理效率并降低成本,适用于语音数据处理场景。该技术为开发者提供了对模型内部逻辑的深入控制,有助于优化性能和资源管理。