专题:performance-optimization

按该标签聚合的大模型资讯列表(自动分类与标签提取)。23 篇文章。

官方Simon Willison2026/03/30 04:086860
无需操作 DOM 计算文本行高
离屏测量与换行模拟优化性能

Pretext 是一个无需操作 DOM 即可计算换行文本行高的浏览器库,通过离屏测量和模拟换行逻辑提升性能。支持多语言和表情符号,适用于浏览器应用的文本渲染优化。开发过程中借助 AI 工具进行辅助,验证了其在多种文档中的准确性。

媒体InfoQ 中文2026/03/26 18:005830
Token级推理监控方法
实现方案与性能挑战

本文介绍大模型推理中Token级可观测性的工程实践,旨在提升模型运行时的监控精度。通过日志追踪、事件记录和嵌入式监控等方法,实现对每个Token的处理状态分析,帮助优化推理性能。文章提供了代码示例和实际部署中的挑战分析,具有较高的技术参考价值。

媒体The Cloudflare Blog2026/03/23 21:007960
Turin处理器核心数翻倍,缓存容量减少
FL2重构解决缓存瓶颈,提升吞吐量

Cloudflare发布第13代服务器,采用AMD EPYC Turin处理器,通过重构FL1为FL2,实现吞吐量翻倍、延迟降低70%。核心亮点在于硬件与软件协同优化,提升边缘计算性能与能效。

官方Simon Willison2026/03/13 11:445960
Shopify CEO用AI代理优化Liquid模板引擎
解析渲染速度提升53%,内存分配减少61%

Shopify CEO Tobias Lütke利用AI驱动的自动研究系统,对20年历史的Liquid模板引擎进行93项微优化,实现解析渲染速度提升53%、内存分配减少61%。该方案依赖高覆盖率测试套件与AI代理自动实验,证明了AI编码代理在成熟开源项目中实现精细化性能调优的可行性,为AI辅助开发提供了可复用的工程范式。

官方Microsoft Azure Blog2026/03/05 01:007830
Azure IaaS支持AI、全球应用和关键业务系统
提供弹性扩展与多层安全防护

Azure IaaS资源中心是支持现代云基础设施设计、优化和运营的集中平台,强调性能、安全性、弹性扩展和成本效率。它为AI工作负载、全球应用和关键业务系统提供全面支持,帮助组织在数字化转型中保持创新与稳定。

官方Microsoft Azure Blog2026/03/03 01:007830
快照创建后立即恢复磁盘
提供接近满负荷的性能

Azure 推出增量快照即时访问功能,允许用户在快照创建后立即恢复磁盘,无需等待数据复制。该功能提升了恢复速度和性能,适用于关键业务场景,如快速回滚、维护和扩展。技术上通过高性能存储实现,支持跨区域恢复,并采用按使用计费模式。

官方Matklad2026/02/25 08:002880

本文深入探讨了基于查询的编译器在实现增量编译时的原理、优势与局限。这类编译器通过将编译过程抽象为函数调用图,实现输入变化时仅重新计算受影响部分,并引入“提前终止”优化,以满足IDE对100毫秒级快速响应的需求。然而,文章指出其效率受限于源语言的依赖结构,对于复杂变化(如加密算法)或需冗余检查依赖的场景,增量效果不佳。作者强调,语言设计者应优先选择更直接高效…

社区Hacker News2026/02/12 21:3040

一项引人注目的研究展示了仅通过更换名为'Harness'的训练框架,便能在短短一个下午内大幅提升15款大型语言模型(LLM)的编码能力。这一成果凸显了训练工具和框架在LLM性能优化中的关键作用。研究表明,即使不修改模型本身或训练数据,优化训练过程也能带来显著的性能提升。这为LLM开发者提供了新的思路,即通过改进训练基础设施来快速增强模型在代码生成等复杂任务…

社区Reddit r/LocalLLaMA2026/02/10 17:0250

用户在16GB显存和96GB内存环境下运行GLM 4.5 Air UD-Q4_K_XL时遇到性能瓶颈。该模型生成速度仅3 t/s,远低于同等大小的其他模型(20 t/s)。用户尝试将专家层卸载到RAM以优化内存分配,但GLM 4.5 Air会崩溃,被迫使用`--fit`参数,导致显存耗尽和生成速度缓慢。用户寻求提升GLM 4.5 Air生成速度的方法,并疑…

社区Reddit r/LocalLLaMA2026/02/09 23:1840

用户在使用 LM Studio 将扫描的 PDF 文件转换为结构化输出时,遇到了处理速度缓慢的问题。当前流程是将 PDF 转为 JPG 图片,再加入提示词。即使在高性能设备上,效率依然低下。用户分享了相关的 Python 代码,并寻求关于优化此流程的建议,包括 LM Studio 本身或 MLX 等其他工具。

社区Reddit r/LocalLLaMA2026/02/09 22:1480

一位用户正在为本地隔离环境的大模型服务器寻求升级建议,预算约 5 万美元。现有配置为双路 Xeon Gold 6242、768GB DDR4 内存和三块 RTX Quadro 8000(144GB VRAM)。用户面临如何在提升模型能力(运行更大模型)与提高处理速度(TPS)之间进行权衡的难题,尤其是不确定部分内存卸载对性能的影响以及内存/CPU 升级的性…

社区Reddit r/LocalLLaMA2026/02/09 20:0950

作者将基于LFM2-350M的自研推理引擎从Python(或类似)移植到纯C语言。此前,该引擎在旧款Intel Core i5笔记本上仅有每秒4个token的速度。通过纯C语言重写单批次推理部分,并利用混合缓存及CBLAS GEMM API,作者成功将速度提升了3倍,达到每秒12个token。该项目从零开始构建,未使用gguf文件,且代码已在GitHub开…

社区Reddit r/LocalLLaMA2026/02/09 18:0250

一位开发者正在基于树莓派5和Hailo-10H构建一个本地大语言模型系统,旨在实现首个词元生成时间(TTFT)小于100毫秒的本地TTS/STT功能。然而,初步测试显示,使用llama3.2:1b或qwen2:1.5b等模型时,TTFT性能仅为350-500毫秒,远未达到预期目标。该开发者对此结果表示不满意,并正在寻求社区中是否有关于更优本地模型或系统的推…

社区Hacker News2026/02/08 18:2250

Elysia框架通过嵌入JIT“编译器”实现了卓越性能,这一技术借鉴了ajv和TypeBox在输入验证上的成功经验,并将其扩展至完整的后端框架。这种创新方法赋予Elysia在性能基准测试中显著优势,使其成为Bun运行时上最快的JavaScript框架,同时在使用相同HTTP适配器时,其速度也超越了Node、Deno和Cloudflare Worker上的多…