IonRouter(YC W26):高吞吐、低成本的AI推理服务
Hacker News2026/03/13 02:52机翻/自动摘要/自动分类
6 阅读
内容评分
技术含量
8/10
营销水分
7/10
摘要
IonRouter是Cumulus Labs推出的高吞吐、低成本推理API,专为开源和微调模型设计。其核心技术包括针对GH200架构的优化、KV块写入机制和注意力计算优化,显著提升性能。目前支持GPT-OSS-120B和Qwen3.5-122B等模型,按token计费,无空闲费用。尽管延迟略高,但团队正积极改进。
正文
Veer与Suryaa联合创立的Cumulus Labs(YC W26)推出了IonRouter,一款专为开源模型和模型设计的推理API。用户只需替换基础URL,即可在不修改现有OpenAI客户端代码的情况下,使用IonRouter的推理引擎调用任何模型。面对现有推理服务的两难困境——要么昂贵,要么复杂,团队决定自主研发IonAttention,一个针对NVIDIA GH200处理器内存架构优化的C++推理运行时。IonAttention通过硬件缓存一致性、基于不可变性的KV数据块写入机制以及小批量注意力计算优化,显著提升了推理性能。在多模态处理场景中,IonRouter的吞吐量达到588 tokens,优于Together AI的298 tokens。尽管当前延迟(1.46秒)略高于Together AI(0.74秒),但团队正积极优化。IonRouter按计费,无空闲费用,支持GPT-OSS-120B和Qwen3.5-122B等模型。开发者可直接在ionrouter.io/playground上试用,无需注册。团队希望借此工具吸引开发者,尤其是那些需要模型的团队,共同推动AI推理服务的创新。