首页/详情

Pure WebGPU BitNet 推理:在任意 GPU 浏览器中免 CUDA 运行 LLM

Reddit r/LocalLLaMA2026/02/20 21:49机翻/自动摘要/自动分类
2 阅读

内容评分

技术含量
7/10
营销水分
5/10

摘要

作者全新用 WGSL 编写神经网络算子,实现了 BitNet 大语言模型的纯 WebGPU 推理。该方案无需 CUDA,兼容所有支持 WebGPU 的 GPU,在浏览器或 wgpu‑native 环境下均可运行,已在 HuggingFace Spaces 部署演示,代码开源,面向开发者提供了在浏览器端部署 LLM 的可行路径。

正文

作者从零使用 WGSL(WebGPU 着色语言)实现了完整的神经网络算子库,基于 WebGPU 将 BitNet 系列大语言模型的推理搬到了浏览器端。该实现不依赖 NVIDIA 的 CUDA,只要设备支持 WebGPU(包括 Chrome、Edge、Firefox 等主流浏览器)或通过 wgpu‑native 的原生接口,即可在 AMD、Intel、NVIDIA 等任意 GPU 上运行。项目已在 HuggingFace Spaces 上部署,提供交互式演示,代码全部开源,欢迎社区反馈与二次开发。

技术要点:

  • 完全手写 WGSL 内核,覆盖卷积、矩阵乘、激活等常用算子;
  • 采用 BitNet 8‑bit 量化格式,显著降低显存占用与计算量;
  • 通过 WebGPU 的 Compute Pipeline 实现高效并行计算;
  • 支持两种运行模式:浏览器(Web)和本地原生(wgpu‑native)。

项目地址:https://huggingface.co/spaces/m96-chan/0xBitNet

标签