首页/详情

Bitnet.cpp:1比特(三元)大语言模型的推理框架

Reddit r/LocalLLaMA2026/02/09 20:29机翻/自动摘要/自动分类
7 阅读

摘要

Bitnet.cpp 是微软官方的 C++ 推理框架,专为 1 比特大语言模型(LLMs)设计,并针对 BitNet b1.58 等架构优化。它支持在 CPU 和 GPU 上进行快速、无损推理(计划支持 NPU),利用高度优化的内核处理三元量化模型。该框架官方支持 BitNet-b1.58 系列、适应 1.58 比特量化的 LLaMA 3 模型,以及 Falcon3 和 Falcon-E 系列等多种模型,满足不同场景的推理需求。

正文

bitnet.cpp 是微软官方的 C++ 推理框架,专为 1比特大语言模型 (LLMs) 设计,并针对 BitNet b1.58 及类似架构进行了优化。它支持在 CPUGPU 上进行 快速、无损推理(计划支持 NPU),利用高度优化的内核处理 三元量化模型

官方支持模型(可在 Hugging Face 上获取):

  • BitNet-b1.58-2B-4T(约 2.4B 参数)– 针对 CPU/GPU 推理优化的 GGUF 格式。
  • bitnet_b1_58-large(约 0.7B 参数)– 适用于边缘设备的轻量级变体。
  • bitnet_b1_58-3B(约 3.3B 参数)– 适用于更高精度任务的更
  • Llama3-8B-1.58-100B-tokens(约 8B 参数)– 适应 1.58 比特量化的 LLaMA 3 模型。
  • Falcon3 系列(1B–10B 参数)– 1.58 比特格式的指令 Falcon 模型。
  • Falcon-E 系列(1B–3B 参数)– 节能型 Falcon 变体。

标签