大模型怎么“记住”东西，还有怎么让推理更高效

说起来，这个系列的直播活动里，要聊的就是大模型怎么“记住”东西，还有怎么让推理更高效。主讲的人是UW–Madison的胡俊杰教授，他本身就是卡内基梅隆大学的博士，现在也是UW–Madison的助理教授。这次的直播定在2026年3月21日，具体是早上10点到11点。大家可以通过腾讯会议或者VooV来参加，用ID 402 005 530就能进房间。咱们来聊聊大语言模型（LLMs），大家都知道它们在推理的时候，特别依赖Key-Value（KV）Cache，这玩意儿其实就是它们的短期记忆。虽然KV Cache对性能很重要，但它会随着上下文越长，占用的内存就越多，到了处理长提示或者长链式思维推理这种现代场景的时候，这个问题就变得特别突出。胡俊杰教授这次从记忆的角度出发，分析了基于Transformer的大模型。他指出，上下文里有很多重要的信息是呈金字塔分布的。他们发现了KV Cache里有冗余信息不断累积的现象。针对这个问题，他们搞出了两个解决办法：第一个是PyramidKV（COLM 2025），这个方法利用金字塔式的信息汇聚来动态压缩KV Cache。它能在保留关键信息结构的同时，让模型更快地处理长上下文。第二个是R-KV（NeurIPS 2025），这是一个能感知冗余的KV Cache压缩方法。它能把那些不断积累的没用的缓存条目剪掉，专门用来缓解长链式思维推理时的内存压力。这套研究给大模型的“记忆机制”提出了一个新视角，实际用起来能让推理速度变快、内存开销变少。