谷歌推出turboquant压缩算法

谷歌最近把一种名为TurboQuant的压缩算法给推出来了,效果非常好,把AI运行时所占用的内存给大大削减了,一口气降到了原来的六分之一。AISTATS 2026上还会展示PolarQuant和量化Johnson-Lindenstrauss,这两项是谷歌研究院这次推出的核心底层技术。KVCache内存瓶颈问题困扰着大模型,因为高维向量需要很多内存。谷歌这次为了解决这个问题推出了TurboQuant算法。谷歌研究院在博文里详细介绍了TurboQuant的工作原理。这个算法分两个步骤进行。第一步用PolarQuant方法对数据进行主体压缩,这个方法不采用传统笛卡尔坐标系,而是把数据向量转换成极坐标形式。第二步就给QJL算法来处理这个过程中的微小误差。IT之家注意到,谷歌的Gemma和Mistral模型在测试中表现不错。实验结果显示,TurboQuant不需要进行预训练或微调就能把KVCache压缩到3比特精度上。在大海捞针这类长文本测试中,它还能保持零精度损失。当用4比特精度版本在H100 GPU上运行时,速度比原来的32位基准快了8倍。传统量化方法虽然能压缩数据但会引入额外开销抵消了优势。Johnson-Lindenstrauss定理与PolarQuant协同工作给AI和搜索业务带来新的解决方案。这三项技术让高度依赖数据压缩的业务在不影响模型性能前提下减少了内存占用。