这波操作真是太秀了！这波操作真是太秀了！

大家都听说了吧，那个秒破世界最难数独的大模型，就是卡帕西点赞的那个，它居然在Transformer里头塞了一台原生计算机。这可太绝了，给每秒3万Token的推理速度撑腰。听说啊，General Catalyst旗下的Percepta团队这回搞了个大动作，直接把计算机嵌进了Transformer的权重里。这就好比是在模型肚子里藏了个WebAssembly解释器，能跑C或者C++编译后的指令，真的是太神奇了。比如算个3加5，模型不再是生成脚本来调用外部工具，而是直接在内部一步步跑完程序，结果直接就输出在Token流里。至于效率问题，他们搞了个创新的二维注意力头设计。以前那种全量扫描的方式成本太高了，现在每个Key向量变成了二维的，Query向量相当于一个方向。这时候找匹配的Key就变成了在凸包上找最远点的几何问题。靠着凸包数据结构维护动态缓存，团队把复杂度从O(n)降到了O(log n)。这个叫HullKVCache的东西在普通CPU上表现不错，3万Token每秒的吞吐量轻松拿下，9000行指令只要3秒搞定，效率比传统方法高了快200倍。为了验证这套方法到底行不行，Percepta挑了两个特别硬的活儿。一个是解10×10的最小代价完美匹配，另一个就是那个号称世界最难的Arto Inkala数独。在完美匹配任务里，模型用匈牙利算法走自回归流程，行分配、Dijkstra求解这些步骤全记录得清清楚楚。CPU上跑出了33583 Token每秒的速度，每秒输出7301行指令。至于数独这题嘛，面对只有21个提示数的Arto Inkala局面，模型跑了个完全正确的求解器。先填充21个格子进行约束传播，然后进入搜索阶段一个个试数字。每一次尝试和回溯都以日志形式自回归输出。最后这一招太厉害了！只用了3分钟就把这个难题100%精确地解开了。领导这项工作的是Christos Tzamos，他可是麻省理工的博士、雅典大学的副教授，现在是Percepta的创始研究员。Percepta这家公司背靠General Catalyst，团队里有来自Meta FAIR、MIT还有Google的大牛呢。这波操作真是太秀了！