我一直在将 Opus 用于几乎所有的代码相关工作，而 Kimi 则用于其他所有事情，从写作到头脑风暴。坦白说，Kimi 是情商最高的模型。

本月初的发布公告引起了不小的轰动。它在多项任务上击败了前沿模型，同时成本却低得多。所以，我想知道我是否可以用 Kimi K2.5 完全取代 Opus，这样可以省很多钱，哈哈。我不做硬核的东西；任何能以远低于 Opus 的成本解决中等难度编码任务的模型都受欢迎。

我尝试过 Deepseek v3 special，它很不错，但还没达到我的期望。

所以，这是我的发现。

代码库 + 任务

我创建了一个 Next.js Web 应用，一个使用 Cesium 的类似 Google Earth 的地球查看器。两个模型都从同一个干净的提交开始，并接收了相同的提示。

任务 1 是构建实际的地球应用（Cesium 地球、平移/缩放/旋转、底图层和基本 UI）。任务 2 是真正的考验：添加身份验证，通过 Composio 连接 PostHog（我想测试我们新的 PostHog 集成），在登录后捕获用户位置，然后在单击时显示带有姓名/电子邮件的活动用户标记在地球上。

两个模型都使用了 Claude Code 环境。

结果

任务 1（地球构建）： 两者都接近完成；都需要一次修复。

任务 2（身份验证 + Composio + PostHog）：

Kimi 首先尝试在浏览器中运行一个仅服务器的包，导致身份验证失败。然后它尝试了 NextAuth，结果也搞砸了。修复循环只是让事情变得更糟，并且输出混乱。与此同时，Opus 顺利地完成了端到端的整个流程，并且有效。这是预料之中的。

我在博客中提供了演示、提示和 .patch 文件，以便您可以本地应用确切的更改并自行判断：Kimi K2.5 vs. Opus 4.5: David vs. Goliath

就代码质量和输出而言，我知道答案；将这两个模型放在一起比较甚至有点不公平。但是 Kimi k2.5 实际上足以应对许多任务。它绝对优于 Sonnet，并且非常适合那些成本是考量因素的其他非编码任务。我非常确定这是目前构建 Agentic 产品的最佳模型。

我很想听听您使用 Kimi K2.5 构建的经验，任何能充分发挥其潜力的技巧和窍门都欢迎。我想取消我的 Max 订阅，哈哈。