南京大学等机构研究进展：用精准预算框架控制大语言模型推理成本，实现性能与效率平衡

（问题）随着大语言模型教育辅导、企业客服与办公助手等领域的应用扩展，推理质量与成本的矛盾日益突出；为了提高可解释性和正确率，模型通常输出较长的逐步推理过程，但这直接导致文本生成量增加、计算调用增多、响应延迟加长、算力费用上升，同时加重能耗与运维压力。如何在"说清楚"和"少花钱"之间找到平衡，成为产业落地的核心课题。（原因）南京大学、罗格斯大学及马萨诸塞大学阿默斯特分校的研究团队在2025年6月2日发布于arXiv的预印本论文（arXiv:2412.18547v5）中指出，当前模型推理存在"词汇冗余"现象。同一问题在不要求展示过程时可用很少词汇给出答案，但一旦被提示展开步骤，输出会显著膨胀，其中相当部分并非必要信息，而是重复表述、过度铺垫或格式化赘述。这类冗余在大规模在线服务中会被放大，形成可观的边际成本，尤其在高并发、长上下文和复杂任务场景下更为突出。（影响）研究发现，引入"词汇预算"（对输出词数设定上限）能够促使模型更精炼地表达，在保持正确的同时减少无效生成，从而降低推理开销。但预算并非越紧越好。团队观察到"词汇弹性"现象：当预算过度苛刻时，模型可能出现对约束"失配"的行为，输出反而变长或偏离预期，既损害成本控制，也可能影响答案质量。这提示推理压缩不应简单地"一刀切"限长，而需考虑模型行为与任务复杂度之间的非线性关系。（对策）为了找到合适而非最小的预算，研究团队设计了预算搜索算法，并提出隐式单调性假设：在一定范围内，若模型在某一预算下无法答对，更小预算大概率也难以答对；若能答对，更大预算通常也能维持正确。团队在数学推理基准数据集GSM8K上验证发现，约90.91%的问题满足该单调性特征。算法以模型无约束推理时的生成量作为上界，通过二分式收敛快速定位可行区间，进而选取兼顾正确率与实际生成量的预算设置。同时，研究强调"最小可行预算"未必等于"最优预算"，需要把"词汇弹性"的触发风险纳入考量，避免过度压缩造成反向膨胀。在此基础上，团队提出TALE智能推理框架，根据问题难度与模型反馈动态调整"话语量"，为不同任务分配不同预算，实现按需生成、精炼推理。这表明推理过程可以像资源调度一样精细化管理，而非默认输出冗长步骤，为在线推理服务提供可操作的降本路径。（前景）推理成本优化将成为大模型规模化应用的重要支点。一上可将预算控制与模型训练、解码策略、评测体系联动，形成从"生成机制"到"服务治理"的闭环；另一方面可结合业务场景引入分级推理，简单问题快速直答，复杂问题才启用更长推理与多轮校验，实现成本与体验的动态平衡。随着企业对时延、费用与绿色计算的约束增强，TALE这类"预算化推理"方法有望在更多行业系统中落地，成为提升推理性价比的关键工具。

从蒸汽时代到信息时代，效率始终是技术革命的核心。这项研究不仅解决了智能系统的"成长烦恼"，更启示我们最先进的技术往往不是追求无限复杂，而是在精确与简洁之间找到平衡。当机器学会"惜字如金"，或许正是人机协同迈向新阶段的开始。