3月18日那天,MiniMax终于把他们自家的旗舰大模型M2.7给推了出来,这东西有点牛,大家都觉得挺有意思。这次发布的亮点主要是展示了“模型自我进化”这条路怎么走。他们给这玩意儿加了个叫Agent Harness的体系,让它自己深度参与到训练和优化里去。你可能没想到,有些时候它甚至能把研发里30%到50%的活儿都给包了。内部测试结果也很理想,效果提升了大概30%。在实际应用这块儿也挺能打的,比如在SWE-bench Pro上的成绩是56.22%,离国际一线水平已经很近了;再看像VIBE-Pro、Terminal Bench 2这类真实工程测试,它也都表现得很出色,能直接支持项目交付和复杂系统的理解。办公场景更是没得说,它在GDPval-AA这个评测里拿了个1495的ELO分,是目前开源里最高的,Word文档的处理和多轮编辑能力都有很大进步。 现在这个M2.7已经正式在MiniMax Agent和开放平台全球上线了。行业里很多人都觉得这标志着龙虾Agent模式的真正落地,AI的发展也跟着往前迈了一大步,从以前只能当个简单的工具变成了能自己进化的系统。