Cloudflare Workers AI集成Kimi K2.5：256K上下文大模型的边缘推理革命

The Cloudflare Blog2026/03/20 03:53机翻/自动摘要/自动分类

内容评分

技术含量

9/10

营销水分

6/10

摘要

Cloudflare在Workers AI上上线Kimi K2.5大模型，支持256k上下文与多模态输入，专为智能代理优化。通过定制推理栈、前缀缓存与会话亲和性等技术，实现边缘高效推理。实际应用中，代码审查成本降低77%，Agents SDK已默认集成，推动AI代理在边缘端规模化落地。

正文

Cloudflare正式将Moonshot AI的Kimi K2.5接入Workers AI平台，标志着其智能代理基础设施迈入高性能时代。Kimi K2.5具备256k上下文窗口、多模态输入与结构化输出能力，专为复杂代理任务优化。为支撑该模型，Cloudflare重构了推理栈：定制内核提升GPU利用率，引入数据并行与张量并行，并新增前缀缓存、会话亲和性（x-session-affinity）和异步API三大核心功能，显著提升吞吐与缓存命中率。在内部测试中，Kimi K2.5被用于自动化代码审查（如Bonk代理），日均处理超70亿，单代码库发现15个安全漏洞，成本较传统模型降低77%。Agents SDK已默认集成该模型，开发者可直接在边缘部署高上下文智能代理，实现从到模型推理的全栈统一管理。

Cloudflare Workers AI集成Kimi K2.5：256K上下文大模型的边缘推理革命

内容评分

摘要

正文

标签