Canary：AI驱动的代码质量检测工具，精准验证用户流程

Canary是由Aakash和Viswesh开发的一款AI质量检测工具，旨在自动分析代码库，识别代码变更对用户流程的影响，并为受影响的流程生成并执行测试。两位开发者此前在Windsurf、Cognition和Google参与过多个AI工具的开发，但发现传统方法在代码合并前无法有效验证变更对实际用户行为的影响。随着PR规模的扩大，仅依赖文件差异对比已不足以发现潜在问题，如登录失败、授权错误或计费异常。Canary通过连接代码库，理解应用架构（如路由、控制器、验证逻辑），并在PR提交时读取代码差异，生成并运行测试以验证整个用户流程。测试结果会直接显示在PR评论中，并支持用户手动触发特定流程测试。此外，Canary生成的测试结果可整合到回归测试套件中，用户只需用自然语言描述测试需求，Canary即可自动生成完整的测试用例并自动执行。为验证性能，团队发布了QA-Bench v0，对比了Canary与GPT 5.4、Claude Code（Opus 4.6）和Sonnet 4.6在35个真实PR中的表现，从相关性、覆盖率和一致性三个维度评估，结果显示Canary在覆盖率上显著领先。Canary的演示视频可通过链接查看，团队也欢迎任何对代码验证或测试方法有创新想法的人士提供反馈。

Canary：AI驱动的代码质量检测工具，精准验证用户流程

内容评分

摘要

正文

标签