AMD 推出的开源本地 LLM 服务器 Lemonade,结合 GPU 与 NPU 实现高效推理和训练。通过统一调度层自动选路,提供 Docker 镜像和一键脚本,降低部署门槛。采用 Apache 2.0 许可证,面向企业和个人开发者,支持多种模型格式,旨在推动本地 AI 应用落地。
专题:gpu
按该标签聚合的大模型资讯列表(自动分类与标签提取)。共 21 篇文章。
文章解释了企业级GPU与图形GPU的区别,指出企业级GPU因移除图形处理功能而更适合AI计算任务,如CUDA运算。核心亮点在于强调了AI对计算性能的需求,而非图形处理能力。
AWS SageMaker AI训练计划允许用户为推理端点预留固定GPU资源,确保在关键评估期或突发场景下有稳定的计算能力。文章介绍了具体操作流程、实例配置方法及管理策略,适用于需要可预测资源的AI模型部署。
黄仁勋预测AI智能将变得彻底廉价,推动技术普及与产业应用。随着计算成本降低,AI将广泛进入医疗、教育、制造等领域,成为大众可及的工具。英伟达通过硬件和软件生态加速这一进程,带来社会和经济价值。
Karpathy 的 Autoresearch 项目通过 GPU 集群提升 AI 代理性能,加速模型训练与数据处理,为 AI 研究提供更高效的技术支持。
NVIDIA GreenBoost技术通过系统内存和NVMe透明扩展GPU显存,提升AI计算效率。适用于显存不足的训练和推理场景,依赖CUDA和驱动程序实现,具备良好的资源调度能力。
AWS与NVIDIA在2026年GTC大会上深化AI合作,部署百万级GPU、支持新型EC2实例、优化分布式LLM推理及提升Apache Spark性能。此举旨在帮助企业构建稳定、可扩展且合规的AI生产系统,为开发者和研究人员提供更强大的工具。
AutoKernel 是一款AI驱动的GPU内核自动化研究工具,通过学习硬件特性与编程模型,提升GPU性能与能效。适用于硬件工程师和研究人员,加速创新性GPU设计的实现。
本文介绍了一种无需调整模型参数即可提升大型语言模型在AI排行榜表现的方法。通过深入分析模型的神经架构,作者提出了一种创新的训练或优化策略,展示了如何在不改变权重的情况下实现性能突破。核心亮点在于对模型结构的利用和实验验证。
苹果M5 Max MacBook Pro在5万元价位上表现出色,尤其在AI任务中性能远超预期。其搭载的M5 Max处理器和Studio Display XDR显示器,为专业用户提供了高效且便携的解决方案,统一内存架构优化了本地AI模型的运行效率。
NVIDIA推出NCA-AIIO认证课程,帮助开发者掌握AI基础设施与运维知识。课程内容涵盖GPU架构、NVIDIA软件套件及AI基础,适合入门学习。提供4小时系统教学,是准备考试的实用资源。
本文探讨了 Supermicro X10DRG-Q 主板在支持大型语言模型训练和推理中的潜在优势,特别是其多个 PCIe 插槽和 PLX P2P 技术对 GPU 直接通信的提升。文章关注硬件对 LLM 性能的影响,具有一定的技术参考价值。
文章探讨了GLM-5 Coding Plan在云服务上出现的周期性性能下降问题,分析其可能与基础设施相关,并讨论本地部署是否能改善这一现象。适用于需要稳定AI推理性能的开发者,强调了硬件自主控制的重要性。
本文探讨AI初创企业在生产环境中运行推理任务时面临的实际挑战,包括GPU成本、资源可用性、延迟、扩展性及供应商依赖等问题。作者旨在通过真实反馈,帮助从业者了解当前解决方案的局限性,并寻找更优替代方案。
本文探讨了运行700亿参数以上LLM所需的硬件配置,针对文档分类任务提出建议。核心亮点包括对GPU和内存需求的分析,以及不同硬件方案的对比。
本文评估了在约£1,000(≈US$1,300)预算内组装本地大语言模型工作站的可行性,重点分析了 Google Gemini 推荐的 RTX 3090 + Ryzen 5 7600 方案。通过对显卡显存、CPU、主板、内存、电源和散热的细致拆解,给出二手 RTX 3090 与新品 RTX 4070 Ti 两种预算方案,并指出显存是决定可运行模型规模的关键…
本文在 10‑15 k UAH(约 250‑380 USD)预算内评估二手显卡,推荐 RTX 3060 12GB 为性价比首选,若能以相近价位入手 RTX 3060 Ti、RTX 2070 Super 或 RTX 3070 则更佳。针对双路 Xeon E5645 + 96 GB DDR3 服务器,分析了 CPU、PCIe 与显存的限制,并列出可在该平台上流…
用户希望在 6GB 显存的 RTX 2060 上运行新发布的 1.8B 参数模型 HY-MT1.5,并实现接近零延迟的推理。用户询问是否需要升级 GPU 或使用 Colab 来达成此目标,寻求关于硬件配置和部署方案的建议。
一位用户正在寻找关于在华为 Atlas 300I duoGPU 上运行 Ollama 和大型语言模型(LLM)的相关信息和资源。由于搜索结果有限,该用户公开询问社区是否有人有过相关尝试或经验,希望能获得更多实践指导和技术支持。
本文探讨了将GPU部署到太空轨道数据中心的未来愿景,以应对AI计算需求的指数级增长。文章分析了太空能源的巨大优势、Starship火箭降低发射成本的潜力,以及地球基础设施面临的能源和规模瓶颈。尽管面临芯片成本、在轨维修和通信延迟等挑战,Elon Musk认为太空是AI算力发展的必然归宿。若此设想实现,SpaceX将凭借其发射能力在AI竞赛中取得决定性优势。