专题：memory_optimization

按该标签聚合的大模型资讯列表（自动分类与标签提取）。共 4 篇文章。

在32GB内存Mac上通过NVMe运行1T参数AI模型的技术方案

社区Hacker News2026/03/25 00:026840

• 利用NVMe实现张量流式传输

• 优化内存瓶颈问题

本文介绍在32GB内存Mac上运行1T参数AI模型的方法，通过NVMe流式传输张量数据，解决内存瓶颈问题。技术方案涵盖NVMe存储特性、张量处理机制及优化策略，对资源受限环境下的模型部署具有参考价值。

社区Hacker News2026/03/24 02:225820

• 内存优化提升模型效率

• 量化、剪枝等技术被提及

本文介绍AI/LLM领域的内存优化技术，包括量化、剪枝和知识蒸馏等方法，旨在提升模型效率和资源利用率，适用于训练和推理场景，具有实际应用价值。

社区Hacker News2026/03/18 00:313760

• 5.9GB内存下实现4.74 tok/s生成速度

• 展示大模型的资源优化能力

Qwen3.5-397B模型在5.9GB内存下实现每秒4.74个token的生成速度，体现了大模型在资源优化方面的进展。该模型适用于需要高效推理能力的场景，是模型性能优化的一个亮点。

媒体antirez2025/11/11 20:533840

本文探讨了HNSW在Redis中的优化实践，包括内存压缩、向量量化、多线程处理和跨实例扩展。作者指出HNSW在某些方面与Redis的性能目标存在冲突，并提出改进方案，为开发者提供了深入的技术参考。