南京大学等机构研究进展:用精准预算框架控制大语言模型推理成本,实现性能与效率平衡

(问题)随着大语言模型教育辅导、企业客服与办公助手等领域的应用扩展,推理质量与成本的矛盾日益突出;为了提高可解释性和正确率,模型通常输出较长的逐步推理过程,但这直接导致文本生成量增加、计算调用增多、响应延迟加长、算力费用上升,同时加重能耗与运维压力。如何在"说清楚"和"少花钱"之间找到平衡,成为产业落地的核心课题。 (原因)南京大学、罗格斯大学及马萨诸塞大学阿默斯特分校的研究团队在2025年6月2日发布于arXiv的预印本论文(arXiv:2412.18547v5)中指出,当前模型推理存在"词汇冗余"现象。同一问题在不要求展示过程时可用很少词汇给出答案,但一旦被提示展开步骤,输出会显著膨胀,其中相当部分并非必要信息,而是重复表述、过度铺垫或格式化赘述。这类冗余在大规模在线服务中会被放大,形成可观的边际成本,尤其在高并发、长上下文和复杂任务场景下更为突出。 (影响)研究发现,引入"词汇预算"(对输出词数设定上限)能够促使模型更精炼地表达,在保持正确的同时减少无效生成,从而降低推理开销。但预算并非越紧越好。团队观察到"词汇弹性"现象:当预算过度苛刻时,模型可能出现对约束"失配"的行为,输出反而变长或偏离预期,既损害成本控制,也可能影响答案质量。这提示推理压缩不应简单地"一刀切"限长,而需考虑模型行为与任务复杂度之间的非线性关系。 (对策)为了找到合适而非最小的预算,研究团队设计了预算搜索算法,并提出隐式单调性假设:在一定范围内,若模型在某一预算下无法答对,更小预算大概率也难以答对;若能答对,更大预算通常也能维持正确。团队在数学推理基准数据集GSM8K上验证发现,约90.91%的问题满足该单调性特征。算法以模型无约束推理时的生成量作为上界,通过二分式收敛快速定位可行区间,进而选取兼顾正确率与实际生成量的预算设置。同时,研究强调"最小可行预算"未必等于"最优预算",需要把"词汇弹性"的触发风险纳入考量,避免过度压缩造成反向膨胀。 在此基础上,团队提出TALE智能推理框架,根据问题难度与模型反馈动态调整"话语量",为不同任务分配不同预算,实现按需生成、精炼推理。这表明推理过程可以像资源调度一样精细化管理,而非默认输出冗长步骤,为在线推理服务提供可操作的降本路径。 (前景)推理成本优化将成为大模型规模化应用的重要支点。一上可将预算控制与模型训练、解码策略、评测体系联动,形成从"生成机制"到"服务治理"的闭环;另一方面可结合业务场景引入分级推理,简单问题快速直答,复杂问题才启用更长推理与多轮校验,实现成本与体验的动态平衡。随着企业对时延、费用与绿色计算的约束增强,TALE这类"预算化推理"方法有望在更多行业系统中落地,成为提升推理性价比的关键工具。

从蒸汽时代到信息时代,效率始终是技术革命的核心。这项研究不仅解决了智能系统的"成长烦恼",更启示我们最先进的技术往往不是追求无限复杂,而是在精确与简洁之间找到平衡。当机器学会"惜字如金",或许正是人机协同迈向新阶段的开始。