社区Hacker News2026/03/13 02:527860
• IonRouter提供高吞吐、低成本推理服务
• 专为开源和微调模型优化,支持GH200架构
IonRouter是Cumulus Labs推出的高吞吐、低成本推理API,专为开源和微调模型设计。其核心技术包括针对GH200架构的优化、KV块写入机制和注意力计算优化,显著提升性能。目前支持GPT-OSS-120B和Qwen3.5-122B等模型,按token计费,无空闲费用。尽管延迟略高,但团队正积极改进。
按该标签聚合的大模型资讯列表(自动分类与标签提取)。共 3 篇文章。
IonRouter是Cumulus Labs推出的高吞吐、低成本推理API,专为开源和微调模型设计。其核心技术包括针对GH200架构的优化、KV块写入机制和注意力计算优化,显著提升性能。目前支持GPT-OSS-120B和Qwen3.5-122B等模型,按token计费,无空闲费用。尽管延迟略高,但团队正积极改进。
NVIDIA推出NCA-AIIO认证课程,帮助开发者掌握AI基础设施与运维知识。课程内容涵盖GPU架构、NVIDIA软件套件及AI基础,适合入门学习。提供4小时系统教学,是准备考试的实用资源。
一位用户在试用NVIDIA DGX Spark后决定退货,指出其CUDA及软件兼容性存在严重问题。该产品采用独特的sm121架构,而非Blackwell,导致大量AI软件需回退至老旧的sm80代码路径运行,无法享受现代架构优化。NVIDIA客服的解释将AI硬件的Tensor Core阉割归因于RT Cores和DLSS,引发用户对其产品定位混乱的质疑。DG…