Anthropic这次发布的Claude Opus 4.5确实表现抢眼,在自家设计的编码测试里把所有人类考生都给打败了,这让大家都很吃惊。Dario Amodei在2024年的Dreamforce大会上透露过一个数据,说是Claude已经给公司大部分团队编写了90%的代码,虽说他也没打算用机器人完全取代软件工程师,但这确实说明了模型的强大能力。Eric Simons就是那个在Stackblitz公司负责Bolt.new编码服务的人,他之前告诉《商业内幕》,他相信Anthropic是让AI独立把代码写好发布出来,然后再通过人类和工具一起去审查。Dianne Penn是这家公司的产品管理和研究负责人,她对Eric的说法表示基本认可。 为了检验技术能力和判断力,Anthropic给自己的候选人设计了一份很有难度的家庭作业考试。这次新版的Claude 4.5在测试中不仅得分最高,还展示了在时间压力下强大的解题能力。虽然关于这次测试的具体内容了解得不多,但有网友在Glassdoor上说过,这考试大概分为四个级别,要求实现一个系统还要加上新功能。马克·扎克伯格的Meta也在用Claude来支持他们的Devmate内部编码助手,尽管Meta和Anthropic在AI领域算是竞争对手。 给模型多次解决问题的机会并从中选出最佳答案,这是Anthropic这次获胜的关键方法。Claude 4.5在Excel表格和PowerPoint演示文稿这些专业文档的生成上也进行了升级。这次发布是在三个月前推出的前一版本基础上做的改进,进一步巩固了Anthropic在AI编码领域的主导地位。就连埃里克·西蒙斯都觉得这种让AI先写代码再由人类审核的做法很有趣。 虽然能搞定90%的代码编写工作,但Dario Amodei也承认,这样的情况下通常还是需要同样数量的软件工程师来配合。因为他们还得负责那剩下的10%的代码编辑工作,或者去处理最难的那10%的任务,甚至还得监督一组AI模型一起干活。虽然这一结果引发了大家对“AI将如何改变工程职业”的思考,但Anthropic还是坚持让模型独立输出结果再交给人类去审查这种流程。