专题：llm-inference

DeepSeek 与北大、清华联合在 arXiv 发布 DualPath 论文，提出双路径加载框架，将 KV‑Cache 先写入解码引擎再经 RDMA 传至预填充引擎，充分利用闲置的存储网卡带宽。通过流量管理与自适应调度，实验在 660B 模型上实现离线吞吐提升 1.87 倍、在线吞吐提升 1.96 倍，并显著降低首字延迟，为智能体长上下文推理提供了高效的…

双路径框架 kv缓存 RDMA 大语言模型推理智能体 LLM

Amazon Bedrock 全球跨区域推理：Anthropic Claude 最新模型在东南亚及台湾的部署实践

原文

媒体AWS Machine Learning Blog2026/02/24 23:385750

Amazon Bedrock 推出全球跨区域推理（CRIS）功能，赋能泰国、马来西亚、新加坡、印度尼西亚和台湾地区用户，以更低成本、更高可用性使用 Anthropic Claude Opus/Sonnet/Haiku 最新模型。该功能通过智能路由优化 AI 应用部署，并提供详细配置与最佳实践。

Amazon Bedrock Anthropic Claude 大语言模型推理 AWS 全球跨区域推理

Amazon Bedrock在中东（阿联酋/巴林）上线Anthropic Claude模型，支持全球跨区域推理

原文

媒体AWS Machine Learning Blog2026/02/24 23:336670

亚马逊Bedrock宣布在中东地区（阿联酋和巴林）正式上线Anthropic Claude系列模型，包括最新的Opus 4.6、Sonnet 4.6、Opus 4.5和Haiku 4.5。此次发布的核心亮点是支持全球跨区域推理服务，允许客户将AI推理任务分布到多个AWS区域，从而显著提升应用吞吐量、弹性和响应速度。该功能通过安全的AWS全球网络路由请求，确…

Amazon Bedrock Anthropic Claude 大语言模型推理跨区域部署生成式AI

ChatJimmy 采用硅上硬编码实现 15,000+ token/s 推理：专用 ASIC 能否取代通用 GPU？

原文

社区Reddit r/LocalLLaMA2026/02/22 19:246530

chatjimmy.ai 采用 mask ROM recall fabric 技术，将 LLM 权重硬刻在 ASIC 上，实现每秒 15,414 token 的推理速度，摆脱了 HBM/VRAM 限制。作者对比了自购的 NVIDIA Spark/Grace GPU，探讨专用 ASIC 是否会快速上市并让桌面 GPU 开发变得过时。文章重点在硬件架构差异及未…

定制ASIC 大语言模型推理硅上模型 GPU 与 ASIC 对比

RTX 3090 独显实战：NVMe-to-GPU 技术赋能 70B Llama 3.1 模型，CPU/内存“靠边站”

原文

社区Hacker News2026/02/22 04:575730

本文介绍了一项突破性的技术实验，成功在单块消费级 RTX 3090 显卡上运行了 700 亿参数的 Llama 3.1 模型。核心亮点在于采用了创新的“NVMe-to-GPU”技术，直接绕过 CPU 和系统内存，实现 GPU 与 NVMe SSD 的高速互联，大幅提升了大型模型在有限硬件上的运行效率。该实验为在消费级硬件上部署和运行大型语言模型提供了可行性…

Llama 3.1 NVMe-to-GPU NVIDIA RTX 3090 显卡大语言模型推理硬件优化

Taalas HC1：24人团队打造的结构化 ASIC，推理速率达 17000 token/s，功耗仅 250 W

原文

媒体量子位2026/02/21 14:318730

Taalas 以 24 人团队推出 HC1 芯片，将 Llama 3.1‑8B 硬编码进掩模 ROM，实现每秒 17000 token 推理，功耗仅 250 W，成本与能效均显著优于现有 GPU/ASIC。技术核心是结构化 ASIC 与模型硬连线，已展示多模型扩展方案，预计 2024 年将陆续发布二代产品。

大语言模型硬件优化推理芯片 AI芯片结构化ASIC

2025 年 Amazon SageMaker AI 关键升级：灵活训练计划、跨 AZ 高可用与 EAGLE‑3 推理加速

原文

媒体AWS Machine Learning Blog2026/02/21 04:266740

2025 年 Amazon SageMaker AI 推出灵活训练计划用于推理端点，并通过多 AZ 高可用、LoRA 并行扩展和 EAGLE‑3 自适应解码四项技术显著提升推理成本性能。新功能实现 GPU 预留、容错提升和吞吐增长，帮助用户在生产环境中更高效、低成本地部署大模型。

Amazon SageMaker 大语言模型推理 GPU资源预留成本优化 AI基础设施

Ggml.ai 与 Hugging Face 携手加速本地大模型部署：开源推理框架全新落地

原文

社区Hacker News2026/02/20 21:515860

Ggml.ai 与 Hugging Face 正式合作，将 ggml 推理后端深度集成至 Transformers，推出一键量化模型下载、CPU‑SIMD 加速和生态激励计划。用户可直接在本地设备上运行 LLaMA、Mistral 等大模型，兼顾隐私与低成本。技术亮点包括多位量化、无依赖 C++ 实现以及统一 CLI，标志本地 AI 从实验走向落地。

GGML库 HuggingFace 本地AI 模型量化大语言模型推理

700亿参数模型本地推理：2.6万美元预算下的硬件解决方案探讨

原文

社区Reddit r/LocalLLaMA2026/02/15 08:443630

本文聚焦于一个实际的AI部署挑战：如何在2.6万美元预算内，为支持700亿参数模型构建一台具备高推理速度的本地服务器。用户面临硬件选型难题，特别是多GPU系统的组装。文章旨在收集关于Mac Studio或多块RTX 5090等配置的硬件解决方案建议，为AI开发者和部署者提供参考。

AI计算硬件大语言模型推理 GPU计算硬件解决方案

LLM本地推理深度解析：llama-server与Ollama的GPU/CPU内存管理与大模型卸载策略

原文

社区Reddit r/LocalLLaMA2026/02/12 19:0260

本文探讨了LLM本地推理中，llama-server与Ollama在GPU/CPU内存管理上的差异及大模型部署挑战。用户从Ollama转向llama-server后，发现后者在模型内存分配上行为独特。具体表现为，即使模型大小（如21GB的Qwen3-Coder-30B）远超显卡显存（12GB），llama-server似乎仍优先且仅使用显存，系统内存利用率…

大语言模型推理显存管理 CPU内存模型卸载 Ollama

双RTX 5060 Ti (32GB显存池) 对比单RTX 5070 Ti (16GB): Blackwell架构下本地LLM实测性能与成本分析

原文

社区Reddit r/LocalLLaMA2026/02/11 15:15110

本文详细对比了基于Blackwell架构的两种本地LLM推理系统：双NVIDIA RTX 5060 Ti（32GB显存池）与单RTX 5070 Ti（16GB）。作者出于隐私考虑，对Llama 3和Qwen等模型进行了实测。结果显示，双5060 Ti配置在每GB显存成本上更具优势（约$82/GB vs $126/GB），并能成功运行单16GB显卡无法加载的…

大语言模型推理 GPU评测 VRAM池化 Blackwell架构 llama.cpp

如何在16GB显存+96GB内存环境下高效运行GLM 4.5 Air？

原文

社区Reddit r/LocalLLaMA2026/02/10 17:0250

用户在16GB显存和96GB内存环境下运行GLM 4.5 Air UD-Q4_K_XL时遇到性能瓶颈。该模型生成速度仅3 t/s，远低于同等大小的其他模型（20 t/s）。用户尝试将专家层卸载到RAM以优化内存分配，但GLM 4.5 Air会崩溃，被迫使用`--fit`参数，导致显存耗尽和生成速度缓慢。用户寻求提升GLM 4.5 Air生成速度的方法，并疑…

GLM 4.5 Air 模型部署性能优化显存管理大语言模型推理

将基于LFM2-350M的自研推理引擎移植到纯C语言

原文

社区Reddit r/LocalLLaMA2026/02/09 20:0950

作者将基于LFM2-350M的自研推理引擎从Python（或类似）移植到纯C语言。此前，该引擎在旧款Intel Core i5笔记本上仅有每秒4个token的速度。通过纯C语言重写单批次推理部分，并利用混合缓存及CBLAS GEMM API，作者成功将速度提升了3倍，达到每秒12个token。该项目从零开始构建，未使用gguf文件，且代码已在GitHub开…

推理引擎 C 语言编程性能优化大语言模型推理开源项目

基于令牌计数的分批处理：提升嵌入模型推理效率的实战方案

原文

官方MongoDB Blog2025/12/18 23:004850

本文提出基于令牌计数的分批处理方法，用于优化嵌入模型的查询推理效率。通过填充移除技术，将短查询合并为超级序列，减少内存浪费和计算延迟。实验表明，该方法在降低GPU推理延迟、提升吞吐量和资源利用率方面效果显著，尤其适用于高突发性流量场景。

基于令牌的批处理嵌入模型 GPU加速优化大语言模型推理注意力掩码