Pure WebGPU BitNet 推理:在任意 GPU 浏览器中免 CUDA 运行 LLM
Reddit r/LocalLLaMA2026/02/20 21:49机翻/自动摘要/自动分类
2 阅读
内容评分
技术含量
7/10
营销水分
5/10
摘要
作者全新用 WGSL 编写神经网络算子,实现了 BitNet 大语言模型的纯 WebGPU 推理。该方案无需 CUDA,兼容所有支持 WebGPU 的 GPU,在浏览器或 wgpu‑native 环境下均可运行,已在 HuggingFace Spaces 部署演示,代码开源,面向开发者提供了在浏览器端部署 LLM 的可行路径。
正文
作者从零使用 WGSL(WebGPU 着色语言)实现了完整的神经网络算子库,基于 WebGPU 将 BitNet 系列大语言模型的推理搬到了浏览器端。该实现不依赖 NVIDIA 的 CUDA,只要设备支持 WebGPU(包括 Chrome、Edge、Firefox 等主流浏览器)或通过 wgpu‑native 的原生接口,即可在 AMD、Intel、NVIDIA 等任意 GPU 上运行。项目已在 HuggingFace Spaces 上部署,提供交互式演示,代码全部开源,欢迎社区反馈与二次开发。
技术要点:
- 完全手写 WGSL 内核,覆盖卷积、矩阵乘、激活等常用算子;
- 采用 BitNet 8‑bit 量化格式,显著降低显存占用与计算量;
- 通过 WebGPU 的 Compute Pipeline 实现高效并行计算;
- 支持两种运行模式:浏览器(Web)和本地原生(wgpu‑native)。
项目地址:https://huggingface.co/spaces/m96-chan/0xBitNet