问题——“越练越差”的反常现象引发关注; 研究团队2026年3月发布的预印本论文(arXiv:2603.24472v1)中指出,“自我蒸馏”是一种常见训练策略,通常能让模型输出更精炼、回答更高效,但在数学推理训练中却出现了性能下滑。实验选取了不同参数规模和指令风格的模型,在约1.7万个数学题的数据集上进行训练与评测。结果显示,模型在训练样本上的表现有所提升,输出也更短、更“干净”,但在标准化数学测试和未见新题的评估中,准确率反而下降,部分场景降幅明显。 此发现之所以引人关注,是因为数学推理常被视为检验模型逻辑链条与可解释性的关键领域。与事实问答不同,数学解题更依赖多步演算、条件校验和过程纠错;一旦推理链条被过度压缩,错误更难在过程中暴露并被及时纠正。 原因——不确定性被“抹平”,审慎推理随之变弱。 研究将问题归因于推理表达机制的变化。常规推理中,模型面对复杂题目时往往会对分支条件进行探索式表述,或使用更谨慎的措辞提示可能存在歧义与待验证环节。这在某种程度上是一种“自我检查”:提出假设、验证假设,必要时回退重算。 而在“自我蒸馏”框架下,同一模型同时扮演“教师”和“学生”。“教师”生成推理时能看到标准答案或参考解,因此更倾向于给出自信、路径单一且简洁的推导;“学生”再去模仿这种风格,久而久之形成“过度确定”的表达习惯:更少提示不确定,更少分支检验,也更少中途复核。研究认为,这种看似高效的风格在题型稳定、信息易检索或容错较高的任务中可能带来收益,但在更强调步骤正确、且题目分布更易变化的数学推理中,会削弱模型对新题的适应能力,从而导致泛化性能下降。 换句话说,模型未必是“不会算”,而是“更少怀疑自己”。一旦遇到训练集中未覆盖的变式或隐藏条件,缺乏自我校验的推理更容易一路走向错误结论。 影响——为“以输出更短为优”的训练取向敲响警钟。 这项研究带来的直接启示是:评估模型能力时,不能只看答案是否命中、表达是否简洁。当前不少训练方法倾向于压缩输出长度、减少步骤,以降低推理成本并提升交互体验。但在数学、定理证明、复杂规划等高风险推理任务中,适度的“显式检查”可能不是负担,而是稳健性的一部分。 从应用角度看,如果将此类训练策略不加区分地迁移到教育辅助、工程计算、金融风控等场景,可能带来“表面更流畅、内在更脆弱”的风险:输出更快、更像“标准答案”,却在边界样本和新问题上更不可靠。 对策——从训练目标、数据设计与评测体系三上补齐短板。 研究提出,改进方向可从三条路径推进: 一是调整训练目标,不把“简洁”作为唯一优先项,而是加入对推理稳健性的约束,例如鼓励关键步骤复核、对中间结论做一致性检查,避免把推理压缩成难以追溯的“直觉式”结论。 二是优化数据与教学信号设计。“教师”在生成示范时可保留必要的检验步骤和条件讨论;同时通过构造包含变式、陷阱与反例的数据,让模型在训练阶段就习惯处理不确定与歧义,从而在新题面前保持探索与验证的习惯。 三是完善评测体系,强化对泛化与鲁棒性的检验。除常规准确率外,可增加对未见题分布、对抗变式、步骤一致性与自我纠错能力的测评,避免出现“训练集上变好、真实场景变差”的误判。 前景——从“更会说”走向“更可信”,仍需回到推理本质。 业内普遍认为,推理能力的提升不能只靠单一训练技巧叠加,而需要持续强化“可验证的过程”。这项研究提示,模型能力并非线性增长:某种方法在科学问答、编程生成中有效,并不意味着在数学推理中同样奏效。未来,围绕“保留必要不确定性”“增强自我校验机制”“以泛化为核心指标”的训练框架,可能成为提升可靠性的重点方向。同时,如何在计算成本、输出长度与推理稳健之间取得平衡,也将影响有关技术能否更大规模落地。
当人工智能在数学领域遭遇“特训反效”,这不仅是技术挑战,也在提醒我们:智能系统的进步不能脱离对思维机制本身的理解。在追求效率与准确的过程中,也许需要重新评估那些看似冗余却能带来可靠性的环节。正如数学家希尔伯特所言:“科学大厦的基石不仅由答案构成,更包含提出问题的智慧。”