anthropic 发布claude opus 4.5

Anthropic这次发布的Claude Opus 4.5确实表现抢眼，在自家设计的编码测试里把所有人类考生都给打败了，这让大家都很吃惊。Dario Amodei在2024年的Dreamforce大会上透露过一个数据，说是Claude已经给公司大部分团队编写了90%的代码，虽说他也没打算用机器人完全取代软件工程师，但这确实说明了模型的强大能力。Eric Simons就是那个在Stackblitz公司负责Bolt.new编码服务的人，他之前告诉《商业内幕》，他相信Anthropic是让AI独立把代码写好发布出来，然后再通过人类和工具一起去审查。Dianne Penn是这家公司的产品管理和研究负责人，她对Eric的说法表示基本认可。为了检验技术能力和判断力，Anthropic给自己的候选人设计了一份很有难度的家庭作业考试。这次新版的Claude 4.5在测试中不仅得分最高，还展示了在时间压力下强大的解题能力。虽然关于这次测试的具体内容了解得不多，但有网友在Glassdoor上说过，这考试大概分为四个级别，要求实现一个系统还要加上新功能。马克·扎克伯格的Meta也在用Claude来支持他们的Devmate内部编码助手，尽管Meta和Anthropic在AI领域算是竞争对手。给模型多次解决问题的机会并从中选出最佳答案，这是Anthropic这次获胜的关键方法。Claude 4.5在Excel表格和PowerPoint演示文稿这些专业文档的生成上也进行了升级。这次发布是在三个月前推出的前一版本基础上做的改进，进一步巩固了Anthropic在AI编码领域的主导地位。就连埃里克·西蒙斯都觉得这种让AI先写代码再由人类审核的做法很有趣。虽然能搞定90%的代码编写工作，但Dario Amodei也承认，这样的情况下通常还是需要同样数量的软件工程师来配合。因为他们还得负责那剩下的10%的代码编辑工作，或者去处理最难的那10%的任务，甚至还得监督一组AI模型一起干活。虽然这一结果引发了大家对“AI将如何改变工程职业”的思考，但Anthropic还是坚持让模型独立输出结果再交给人类去审查这种流程。