北大团队推出TransMLA框架主流大模型无需重训实现高效架构迁移

当前，大模型技术发展正遭遇关键瓶颈；MLA架构因采用低秩压缩设计，长上下文任务中具备显存与带宽优势；但主流预训练模型如LLaMA、千问等多采用分组查询注意力（GQA）架构。企业若要迁移到MLA，传统做法往往需要对模型进行完整重训，高昂的算力成本和周期投入成为产业升级的主要障碍。针对该问题，北京大学人工智能研究院张牧涵团队提出新的解决方案。研究团队在北京大学鲲鹏昇腾科教创新卓越中心的算力支持下，开发TransMLA转化框架，核心突破体现在四个上：首先，建立GQA与MLA的结构映射机制，通过线性变换将分组KV向量转换为单一低秩表示；其次，提出RoRoPE位置编码技术，减少传统降维带来的信息损失；再次，引入频率折叠算法提升参数效率；最后，通过范数均衡增强压缩过程的稳定性。昇腾计算平台为技术落地提供了关键支撑。其并行计算架构满足多任务协同处理需求，优化的存储体系也为频率信息处理与矩阵压缩提供硬件保障。实测数据显示，经TransMLA转换后的LLaMA-2-7B模型32K长序列任务中保持核心性能，同时KV缓存压缩率达到68.75%，并在昇腾平台上取得了明显优于主流GPU方案的推理效率。这一进展带来多上的产业价值：技术层面，提供了“零重训”的架构迁移路径；生态层面，已兼容vLLM等主流推理框架；经济层面，可帮助企业将架构改造成本降低90%以上。目前，该成果正通过昇腾开放生态加速推进产业化，预计将推动金融、医疗等长文本处理场景的技术升级。

大模型应用从“能用”走向“好用、易用、低成本可复制”，关键往往在于能否走通可规模化的工程路径。以结构转化减少对重训的依赖、以软硬件协同提升长上下文推理效率，说明了科研成果面向落地的务实方向。面向更长文本、更高并发、更复杂任务的下一阶段竞争，谁能在可靠性可控的前提下降低成本、完善生态，谁就更有机会把技术优势转化为发展优势。

北大团队推出TransMLA框架 主流大模型无需重训实现高效架构迁移

北大团队推出TransMLA框架主流大模型无需重训实现高效架构迁移