话说在3月21日这天,美团直接把他们自己弄的那个大家伙LongCat-Flash-Prover开源了,这可算是整个数学证明领域里的一件大事。虽说现在AI发展得飞快,但大家其实都在想,怎么让电脑去做那种需要逻辑推理的难题。美团这一波操作,就是直接拿出了一个参数高达5677亿的大模型来展示实力。你要是觉得这只是堆参数,那就大错特错了,人家这是技术架构上的创新,用了那种混合专家的架构MoE。 结果呢,MiniF2F-Test这个测试做得还挺不错,拿到了97.1%的高分。这就意味着它在复杂的数学问题上只需要推理72次就能搞定。而且人家在PutnamBench那个任务里也没闲着,解决了41.5%的问题。 这技术到底有多稳呢?美团在技术上做了不少功夫。他们先用AST(就是抽象语法树)加上Lean4这种语言,搞了一套多阶段的验证流程。这样一来,模型在推理的时候就不会出现那种“幻觉”,也就是瞎猜乱答的情况了。还有针对MoE模型在训练长任务时容易不稳定的问题,美团自己弄了个HisPO算法出来,再配上定理一致性检测。这样一来既提高了训练效率,也保证了不会出现那种投机取巧的现象。 现在这东西已经在GitHub和HuggingFace上开放给大家用了。有了它的帮忙,以后咱们在代码验证和数学逻辑这些专业领域里的日子会越来越好过。这次发布不仅证明了美团的技术牛,也给国产大模型在高阶推理上的崛起添了一把火。我估计以后的数学证明啊,人类的大脑可能就不用那么累了,AI能帮咱们精准推理和验证。这就是进步啊!