最近,Cursor推出了个叫CursorBench的新玩意,把AI编程评测推到了一个新高度。大家都知道,AI技术现在发展得可快了,编程智能体的评测标准也得跟着变才行。CursorBench就是专门为了给不同的AI模型比比谁更强而设计的。这个新基准出来后,一下子就吸引了不少人关注。尤其是现在大家都在讨论怎么让智能体更高效地解决复杂任务的时候。 说起现有的编程基准,比如SWE-Bench这种老牌评测标准,虽然之前挺火的,但是有个大问题,就是只看程序能不能解决问题,完全不管效率这事儿。CursorBench就不一样了,它能把AI模型的执行能力测个底朝天,正好把这个漏洞补上。 先说任务设计这块儿吧。以前的评测题好多都是从代码修复或者谜题里来的,根本不接地气。CursorBench就直接用自家平台的真实数据,还用CursorBlame工具把开发者的请求跟生成的代码对比了一下,这样一来任务就跟真实开发场景特别像了。 再说说评分机制吧。以前的基准老觉得一个问题只能有一个标准答案。但实际开发里哪有那么死板的事儿?Claude Haiku 4.5和Claude Sonnet 4.5在这个新基准上得分都跌了一大截呢——Haiku从73.3掉到了29.4,Sonnet从77.2掉到了37.9——这说明它的区分度确实挺强的。 这次评测还挺有意思的一点是它结合了线上和线下的方式来验证效果。在线上搞A/B测试看用户喜不喜欢不同模型生成的代码、改不改错什么的;线下就做更详细的技术分析。这种混合模式既保证了准确性又能促进模型持续优化。 最近的数据显示CursorBench上的任务量也在不断增加,代码行数和文件数都翻了一倍多。这说明它的挑战性越来越大了。大家都在期待下一代评测套件的出现呢。毕竟现在的智能体可不光是要解决问题了,还得能长时间稳定工作才行啊!