谷歌DeepMind带来了他们的STATIC框架,这个神奇的技术把检索速度给提升了足足948倍,直接解决了大型语言模型(LLMs)在生成式检索(GR)中碰到的那些老大难问题。STATIC的全称有点绕口,叫Sparse Transition Matrix Accelerated Trie Index for Constrained Decoding,主要就是给约束解码用的。现代工业推荐系统里,大家越来越倾向于用基于LLM的生成式检索来代替老派的嵌入式搜索,可这个过程里头经常会遇到模型乱讲话的问题,比如会给出根本不存在的产品ID或者逻辑上不通的建议。 为了堵上这个漏洞,DeepMind就和YouTube的研究人员一起联手推出了这个新框架。这招真的太妙了,通过一些巧妙的数学手段,把解码速度给大大加快了。最核心的突破点在于他们把传统的前缀树(Trie)这种树状结构给彻底抛弃了,改用静态压缩稀疏行(CSR)矩阵来表示。这就相当于把复杂的树变成了硬件更擅长处理的扁平矩阵,验证过程瞬间变成了向量化操作。 实际跑起来效果相当炸裂。在用30亿参数的模型做测试的时候,单步延迟居然能低到0.033毫秒。比起传统靠CPU干活的办法,速度快了接近一千倍;就算跟现有的硬件加速方案比,也是遥遥领先,快出了整整40多倍。 YouTube已经用它来推荐视频了,确保推荐的内容不会过时或者违反什么规矩。结果显示,新视频的播放量涨了5.1%,点击率(CTR)也跟着上去了。而且它还帮着解决了一个大难题:推荐那些从没见过的新东西时特别容易翻车。这次有了精确的解码约束,准确度有了很大的提升。 DeepMind以前搞出过AlphaGo打败人类的黑科技,在人工智能这块子确实有两把刷子。现在他们在LLM领域也是铆足了劲在发力。生成式检索、大型语言模型还有STATIC的出现,正好反映出AI技术在工业推荐系统里的发展趋势。不过话说回来,生成式模型太容易不受控了也是个大麻烦。 欧盟那边已经出台了《人工智能法案》(EU AI Act)来规范AI的使用。以后的日子里,大家不光要想着怎么让AI变得更厉害,还得在安全性和解释性上多下功夫才行。