文章解释了企业级GPU与图形GPU的区别,指出企业级GPU因移除图形处理功能而更适合AI计算任务,如CUDA运算。核心亮点在于强调了AI对计算性能的需求,而非图形处理能力。
专题:ai-hardware
按该标签聚合的大模型资讯列表(自动分类与标签提取)。共 14 篇文章。
流式专家技术通过按需加载专家权重,使超大规模语言模型能在内存有限的设备上运行。已实现Qwen3.5-397B-A17B和Kimi K2.5模型在MacBook Pro和iPhone上的运行,处理速度逐步提升。该技术为本地化部署和边缘计算提供了新思路,具有较高的实用价值。
Tinybox是一款专为深度学习优化的高性能计算机,结合先进硬件与定制软件,提升计算效率与能效比。其支持主流框架、自动化部署和灵活扩展,为研究者提供高效且经济的计算平台。
NVIDIA GreenBoost技术通过系统内存和NVMe透明扩展GPU显存,提升AI计算效率。适用于显存不足的训练和推理场景,依赖CUDA和驱动程序实现,具备良好的资源调度能力。
国内首个国产AI推理千卡集群落地,采用云天励飞全自研芯片,提升计算效率并降低能耗,已在多个行业场景中测试应用,具备高能效比和稳定性。
本文探讨RTX 3090与RX 7900 XTX在AI推理场景下的性能与性价比对比,适用于团队部署量化模型的硬件升级决策。重点分析显存、并行处理能力及预算限制下的选择。
本文为运行70亿至130亿参数规模AI模型提供了实用的硬件选购指南。文章详细介绍了经济型(RTX 3060 12GB)、中端(RTX 4060 Ti 16GB/二手RTX 3090 24GB)和数据中心级(如A4000 16GB)显卡的性能表现及适用场景。同时强调了系统内存(32GB)在多模型切换中的重要性,并指出用户具体使用场景是决定配置的关键。为AI爱…
Gemini 3.1 Pro 在检索和成本上优于 GPT-5.2 和 Claude Opus 4.6,但存在工具和 UI 问题。SWE-bench Verified 评估方法引发争议,Claude Opus 4.6 因令牌限制表现不佳,Sonnet 4.6 虽有性能提升但用户不满增加。
Jeff Dean 在访谈中讲述了 Gemini 模型的诞生背景,强调其技术突破源于一页备忘录引发的团队合并。他讨论了长上下文处理、AI 硬件优化及每秒处理 10,000 Token 的能力,展示了 Google AI 在模型架构和计算效率上的战略布局。
一位用户在试用NVIDIA DGX Spark后决定退货,指出其CUDA及软件兼容性存在严重问题。该产品采用独特的sm121架构,而非Blackwell,导致大量AI软件需回退至老旧的sm80代码路径运行,无法享受现代架构优化。NVIDIA客服的解释将AI硬件的Tensor Core阉割归因于RT Cores和DLSS,引发用户对其产品定位混乱的质疑。DG…
本文聚焦于一个实际的AI部署挑战:如何在2.6万美元预算内,为支持700亿参数模型构建一台具备高推理速度的本地服务器。用户面临硬件选型难题,特别是多GPU系统的组装。文章旨在收集关于Mac Studio或多块RTX 5090等配置的硬件解决方案建议,为AI开发者和部署者提供参考。
本文探讨了 Claude 大型语言模型与笔式绘图仪的结合应用,展示了 AI 如何控制物理设备生成艺术作品。核心亮点在于 AI 与硬件的交互实验,具有创新性和技术探索价值,为 AI 在物理创作领域的应用提供了参考。
本文介绍了一个为训练大型扩散模型而构建的定制化 AI 硬件平台。该平台集成了 6 块 RTX 3090 GPU,总计 144GB VRAM,并采用了 Epyc CPU 和八通道 DDR4 内存。通过优化驱动和启用 GPU P2P 功能,实现了高效的 GPU 间通信。该平台专为从零开始训练高达 100 亿参数的扩散模型而设计,展示了在 AI 模型训练领域对高…
文章探讨了本地运行大型语言模型的现状与局限,指出其性能远不如云端模型,且对多数开发者而言并不实用。作者通过实验表明,高端电脑在本地运行LLM时表现与低价设备无明显差异,强调租用模型更符合实际需求。