大家都听说了吧,那个秒破世界最难数独的大模型,就是卡帕西点赞的那个,它居然在Transformer里头塞了一台原生计算机。这可太绝了,给每秒3万Token的推理速度撑腰。听说啊,General Catalyst旗下的Percepta团队这回搞了个大动作,直接把计算机嵌进了Transformer的权重里。这就好比是在模型肚子里藏了个WebAssembly解释器,能跑C或者C++编译后的指令,真的是太神奇了。比如算个3加5,模型不再是生成脚本来调用外部工具,而是直接在内部一步步跑完程序,结果直接就输出在Token流里。 至于效率问题,他们搞了个创新的二维注意力头设计。以前那种全量扫描的方式成本太高了,现在每个Key向量变成了二维的,Query向量相当于一个方向。这时候找匹配的Key就变成了在凸包上找最远点的几何问题。靠着凸包数据结构维护动态缓存,团队把复杂度从O(n)降到了O(log n)。这个叫HullKVCache的东西在普通CPU上表现不错,3万Token每秒的吞吐量轻松拿下,9000行指令只要3秒搞定,效率比传统方法高了快200倍。 为了验证这套方法到底行不行,Percepta挑了两个特别硬的活儿。一个是解10×10的最小代价完美匹配,另一个就是那个号称世界最难的Arto Inkala数独。在完美匹配任务里,模型用匈牙利算法走自回归流程,行分配、Dijkstra求解这些步骤全记录得清清楚楚。CPU上跑出了33583 Token每秒的速度,每秒输出7301行指令。至于数独这题嘛,面对只有21个提示数的Arto Inkala局面,模型跑了个完全正确的求解器。先填充21个格子进行约束传播,然后进入搜索阶段一个个试数字。每一次尝试和回溯都以日志形式自回归输出。 最后这一招太厉害了!只用了3分钟就把这个难题100%精确地解开了。领导这项工作的是Christos Tzamos,他可是麻省理工的博士、雅典大学的副教授,现在是Percepta的创始研究员。Percepta这家公司背靠General Catalyst,团队里有来自Meta FAIR、MIT还有Google的大牛呢。这波操作真是太秀了!