IonRouter（YC W26）：高吞吐、低成本的AI推理服务

Hacker News2026/03/13 02:52机翻/自动摘要/自动分类

内容评分

技术含量

8/10

营销水分

7/10

摘要

IonRouter是Cumulus Labs推出的高吞吐、低成本推理API，专为开源和微调模型设计。其核心技术包括针对GH200架构的优化、KV块写入机制和注意力计算优化，显著提升性能。目前支持GPT-OSS-120B和Qwen3.5-122B等模型，按token计费，无空闲费用。尽管延迟略高，但团队正积极改进。

正文

Veer与Suryaa联合创立的Cumulus Labs（YC W26）推出了IonRouter，一款专为开源模型和模型设计的推理API。用户只需替换基础URL，即可在不修改现有OpenAI客户端代码的情况下，使用IonRouter的推理引擎调用任何模型。面对现有推理服务的两难困境——要么昂贵，要么复杂，团队决定自主研发IonAttention，一个针对NVIDIA GH200处理器内存架构优化的C++推理运行时。IonAttention通过硬件缓存一致性、基于不可变性的KV数据块写入机制以及小批量注意力计算优化，显著提升了推理性能。在多模态处理场景中，IonRouter的吞吐量达到588 tokens，优于Together AI的298 tokens。尽管当前延迟（1.46秒）略高于Together AI（0.74秒），但团队正积极优化。IonRouter按计费，无空闲费用，支持GPT-OSS-120B和Qwen3.5-122B等模型。开发者可直接在ionrouter.io/playground上试用，无需注册。团队希望借此工具吸引开发者，尤其是那些需要模型的团队，共同推动AI推理服务的创新。

IonRouter（YC W26）：高吞吐、低成本的AI推理服务

内容评分

摘要

正文

标签