专题:llm-inference

按该标签聚合的大模型资讯列表(自动分类与标签提取)。17 篇文章。

官方AWS Machine Learning Blog2026/03/25 04:276820
预留GPU资源用于推理端点
支持时间窗口和实例类型选择

AWS SageMaker AI训练计划允许用户为推理端点预留固定GPU资源,确保在关键评估期或突发场景下有稳定的计算能力。文章介绍了具体操作流程、实例配置方法及管理策略,适用于需要可预测资源的AI模型部署。

媒体量子位2026/02/27 16:115840

DeepSeek 与北大、清华联合在 arXiv 发布 DualPath 论文,提出双路径加载框架,将 KV‑Cache 先写入解码引擎再经 RDMA 传至预填充引擎,充分利用闲置的存储网卡带宽。通过流量管理与自适应调度,实验在 660B 模型上实现离线吞吐提升 1.87 倍、在线吞吐提升 1.96 倍,并显著降低首字延迟,为智能体长上下文推理提供了高效的…

媒体AWS Machine Learning Blog2026/02/24 23:385750

Amazon Bedrock 推出全球跨区域推理(CRIS)功能,赋能泰国、马来西亚、新加坡、印度尼西亚和台湾地区用户,以更低成本、更高可用性使用 Anthropic Claude Opus/Sonnet/Haiku 最新模型。该功能通过智能路由优化 AI 应用部署,并提供详细配置与最佳实践。

媒体AWS Machine Learning Blog2026/02/24 23:336670

亚马逊Bedrock宣布在中东地区(阿联酋和巴林)正式上线Anthropic Claude系列模型,包括最新的Opus 4.6、Sonnet 4.6、Opus 4.5和Haiku 4.5。此次发布的核心亮点是支持全球跨区域推理服务,允许客户将AI推理任务分布到多个AWS区域,从而显著提升应用吞吐量、弹性和响应速度。该功能通过安全的AWS全球网络路由请求,确…

社区Reddit r/LocalLLaMA2026/02/22 19:246530

chatjimmy.ai 采用 mask ROM recall fabric 技术,将 LLM 权重硬刻在 ASIC 上,实现每秒 15,414 token 的推理速度,摆脱了 HBM/VRAM 限制。作者对比了自购的 NVIDIA Spark/Grace GPU,探讨专用 ASIC 是否会快速上市并让桌面 GPU 开发变得过时。文章重点在硬件架构差异及未…

社区Hacker News2026/02/22 04:575730

本文介绍了一项突破性的技术实验,成功在单块消费级 RTX 3090 显卡上运行了 700 亿参数的 Llama 3.1 模型。核心亮点在于采用了创新的“NVMe-to-GPU”技术,直接绕过 CPU 和系统内存,实现 GPU 与 NVMe SSD 的高速互联,大幅提升了大型模型在有限硬件上的运行效率。该实验为在消费级硬件上部署和运行大型语言模型提供了可行性…

媒体量子位2026/02/21 14:318730

Taalas 以 24 人团队推出 HC1 芯片,将 Llama 3.1‑8B 硬编码进掩模 ROM,实现每秒 17000 token 推理,功耗仅 250 W,成本与能效均显著优于现有 GPU/ASIC。技术核心是结构化 ASIC 与模型硬连线,已展示多模型扩展方案,预计 2024 年将陆续发布二代产品。

媒体AWS Machine Learning Blog2026/02/21 04:266740

2025 年 Amazon SageMaker AI 推出灵活训练计划用于推理端点,并通过多 AZ 高可用、LoRA 并行扩展和 EAGLE‑3 自适应解码四项技术显著提升推理成本性能。新功能实现 GPU 预留、容错提升和吞吐增长,帮助用户在生产环境中更高效、低成本地部署大模型。

社区Hacker News2026/02/20 21:515860

Ggml.ai 与 Hugging Face 正式合作,将 ggml 推理后端深度集成至 Transformers,推出一键量化模型下载、CPU‑SIMD 加速和生态激励计划。用户可直接在本地设备上运行 LLaMA、Mistral 等大模型,兼顾隐私与低成本。技术亮点包括多位量化、无依赖 C++ 实现以及统一 CLI,标志本地 AI 从实验走向落地。

社区Reddit r/LocalLLaMA2026/02/15 08:443630

本文聚焦于一个实际的AI部署挑战:如何在2.6万美元预算内,为支持700亿参数模型构建一台具备高推理速度的本地服务器。用户面临硬件选型难题,特别是多GPU系统的组装。文章旨在收集关于Mac Studio或多块RTX 5090等配置的硬件解决方案建议,为AI开发者和部署者提供参考。

社区Reddit r/LocalLLaMA2026/02/12 19:0260

本文探讨了LLM本地推理中,llama-server与Ollama在GPU/CPU内存管理上的差异及大模型部署挑战。用户从Ollama转向llama-server后,发现后者在模型内存分配上行为独特。具体表现为,即使模型大小(如21GB的Qwen3-Coder-30B)远超显卡显存(12GB),llama-server似乎仍优先且仅使用显存,系统内存利用率…

社区Reddit r/LocalLLaMA2026/02/11 15:15110

本文详细对比了基于Blackwell架构的两种本地LLM推理系统:双NVIDIA RTX 5060 Ti(32GB显存池)与单RTX 5070 Ti(16GB)。作者出于隐私考虑,对Llama 3和Qwen等模型进行了实测。结果显示,双5060 Ti配置在每GB显存成本上更具优势(约$82/GB vs $126/GB),并能成功运行单16GB显卡无法加载的…

社区Reddit r/LocalLLaMA2026/02/10 17:0250

用户在16GB显存和96GB内存环境下运行GLM 4.5 Air UD-Q4_K_XL时遇到性能瓶颈。该模型生成速度仅3 t/s,远低于同等大小的其他模型(20 t/s)。用户尝试将专家层卸载到RAM以优化内存分配,但GLM 4.5 Air会崩溃,被迫使用`--fit`参数,导致显存耗尽和生成速度缓慢。用户寻求提升GLM 4.5 Air生成速度的方法,并疑…

社区Reddit r/LocalLLaMA2026/02/09 20:0950

作者将基于LFM2-350M的自研推理引擎从Python(或类似)移植到纯C语言。此前,该引擎在旧款Intel Core i5笔记本上仅有每秒4个token的速度。通过纯C语言重写单批次推理部分,并利用混合缓存及CBLAS GEMM API,作者成功将速度提升了3倍,达到每秒12个token。该项目从零开始构建,未使用gguf文件,且代码已在GitHub开…

官方MongoDB Blog2025/12/18 23:004850

本文提出基于令牌计数的分批处理方法,用于优化嵌入模型的查询推理效率。通过填充移除技术,将短查询合并为超级序列,减少内存浪费和计算延迟。实验表明,该方法在降低GPU推理延迟、提升吞吐量和资源利用率方面效果显著,尤其适用于高突发性流量场景。