微软研究揭示“自我蒸馏”训练暗礁：数学推理能力为何不升反降？

问题——“越练越差”的反常现象引发关注；研究团队2026年3月发布的预印本论文（arXiv:2603.24472v1）中指出，“自我蒸馏”是一种常见训练策略，通常能让模型输出更精炼、回答更高效，但在数学推理训练中却出现了性能下滑。实验选取了不同参数规模和指令风格的模型，在约1.7万个数学题的数据集上进行训练与评测。结果显示，模型在训练样本上的表现有所提升，输出也更短、更“干净”，但在标准化数学测试和未见新题的评估中，准确率反而下降，部分场景降幅明显。此发现之所以引人关注，是因为数学推理常被视为检验模型逻辑链条与可解释性的关键领域。与事实问答不同，数学解题更依赖多步演算、条件校验和过程纠错；一旦推理链条被过度压缩，错误更难在过程中暴露并被及时纠正。原因——不确定性被“抹平”，审慎推理随之变弱。研究将问题归因于推理表达机制的变化。常规推理中，模型面对复杂题目时往往会对分支条件进行探索式表述，或使用更谨慎的措辞提示可能存在歧义与待验证环节。这在某种程度上是一种“自我检查”：提出假设、验证假设，必要时回退重算。而在“自我蒸馏”框架下，同一模型同时扮演“教师”和“学生”。“教师”生成推理时能看到标准答案或参考解，因此更倾向于给出自信、路径单一且简洁的推导；“学生”再去模仿这种风格，久而久之形成“过度确定”的表达习惯：更少提示不确定，更少分支检验，也更少中途复核。研究认为，这种看似高效的风格在题型稳定、信息易检索或容错较高的任务中可能带来收益，但在更强调步骤正确、且题目分布更易变化的数学推理中，会削弱模型对新题的适应能力，从而导致泛化性能下降。换句话说，模型未必是“不会算”，而是“更少怀疑自己”。一旦遇到训练集中未覆盖的变式或隐藏条件，缺乏自我校验的推理更容易一路走向错误结论。影响——为“以输出更短为优”的训练取向敲响警钟。这项研究带来的直接启示是：评估模型能力时，不能只看答案是否命中、表达是否简洁。当前不少训练方法倾向于压缩输出长度、减少步骤，以降低推理成本并提升交互体验。但在数学、定理证明、复杂规划等高风险推理任务中，适度的“显式检查”可能不是负担，而是稳健性的一部分。从应用角度看，如果将此类训练策略不加区分地迁移到教育辅助、工程计算、金融风控等场景，可能带来“表面更流畅、内在更脆弱”的风险：输出更快、更像“标准答案”，却在边界样本和新问题上更不可靠。对策——从训练目标、数据设计与评测体系三上补齐短板。研究提出，改进方向可从三条路径推进：一是调整训练目标，不把“简洁”作为唯一优先项，而是加入对推理稳健性的约束，例如鼓励关键步骤复核、对中间结论做一致性检查，避免把推理压缩成难以追溯的“直觉式”结论。二是优化数据与教学信号设计。“教师”在生成示范时可保留必要的检验步骤和条件讨论；同时通过构造包含变式、陷阱与反例的数据，让模型在训练阶段就习惯处理不确定与歧义，从而在新题面前保持探索与验证的习惯。三是完善评测体系，强化对泛化与鲁棒性的检验。除常规准确率外，可增加对未见题分布、对抗变式、步骤一致性与自我纠错能力的测评，避免出现“训练集上变好、真实场景变差”的误判。前景——从“更会说”走向“更可信”，仍需回到推理本质。业内普遍认为，推理能力的提升不能只靠单一训练技巧叠加，而需要持续强化“可验证的过程”。这项研究提示，模型能力并非线性增长：某种方法在科学问答、编程生成中有效，并不意味着在数学推理中同样奏效。未来，围绕“保留必要不确定性”“增强自我校验机制”“以泛化为核心指标”的训练框架，可能成为提升可靠性的重点方向。同时，如何在计算成本、输出长度与推理稳健之间取得平衡，也将影响有关技术能否更大规模落地。

当人工智能在数学领域遭遇“特训反效”，这不仅是技术挑战，也在提醒我们：智能系统的进步不能脱离对思维机制本身的理解。在追求效率与准确的过程中，也许需要重新评估那些看似冗余却能带来可靠性的环节。正如数学家希尔伯特所言：“科学大厦的基石不仅由答案构成，更包含提出问题的智慧。”