专题:caching-techniques

按该标签聚合的大模型资讯列表(自动分类与标签提取)。1 篇文章。

社区Hacker News2026/03/13 02:527860
IonRouter提供高吞吐、低成本推理服务
专为开源和微调模型优化,支持GH200架构

IonRouter是Cumulus Labs推出的高吞吐、低成本推理API,专为开源和微调模型设计。其核心技术包括针对GH200架构的优化、KV块写入机制和注意力计算优化,显著提升性能。目前支持GPT-OSS-120B和Qwen3.5-122B等模型,按token计费,无空闲费用。尽管延迟略高,但团队正积极改进。