说起来,这个系列的直播活动里,要聊的就是大模型怎么“记住”东西,还有怎么让推理更高效。主讲的人是UW–Madison的胡俊杰教授,他本身就是卡内基梅隆大学的博士,现在也是UW–Madison的助理教授。这次的直播定在2026年3月21日,具体是早上10点到11点。大家可以通过腾讯会议或者VooV来参加,用ID 402 005 530就能进房间。 咱们来聊聊大语言模型(LLMs),大家都知道它们在推理的时候,特别依赖Key-Value(KV)Cache,这玩意儿其实就是它们的短期记忆。虽然KV Cache对性能很重要,但它会随着上下文越长,占用的内存就越多,到了处理长提示或者长链式思维推理这种现代场景的时候,这个问题就变得特别突出。 胡俊杰教授这次从记忆的角度出发,分析了基于Transformer的大模型。他指出,上下文里有很多重要的信息是呈金字塔分布的。他们发现了KV Cache里有冗余信息不断累积的现象。针对这个问题,他们搞出了两个解决办法: 第一个是PyramidKV(COLM 2025),这个方法利用金字塔式的信息汇聚来动态压缩KV Cache。它能在保留关键信息结构的同时,让模型更快地处理长上下文。 第二个是R-KV(NeurIPS 2025),这是一个能感知冗余的KV Cache压缩方法。它能把那些不断积累的没用的缓存条目剪掉,专门用来缓解长链式思维推理时的内存压力。 这套研究给大模型的“记忆机制”提出了一个新视角,实际用起来能让推理速度变快、内存开销变少。