当前,大模型技术发展正遭遇关键瓶颈;MLA架构因采用低秩压缩设计,长上下文任务中具备显存与带宽优势;但主流预训练模型如LLaMA、千问等多采用分组查询注意力(GQA)架构。企业若要迁移到MLA,传统做法往往需要对模型进行完整重训,高昂的算力成本和周期投入成为产业升级的主要障碍。 针对该问题,北京大学人工智能研究院张牧涵团队提出新的解决方案。研究团队在北京大学鲲鹏昇腾科教创新卓越中心的算力支持下,开发TransMLA转化框架,核心突破体现在四个上:首先,建立GQA与MLA的结构映射机制,通过线性变换将分组KV向量转换为单一低秩表示;其次,提出RoRoPE位置编码技术,减少传统降维带来的信息损失;再次,引入频率折叠算法提升参数效率;最后,通过范数均衡增强压缩过程的稳定性。 昇腾计算平台为技术落地提供了关键支撑。其并行计算架构满足多任务协同处理需求,优化的存储体系也为频率信息处理与矩阵压缩提供硬件保障。实测数据显示,经TransMLA转换后的LLaMA-2-7B模型32K长序列任务中保持核心性能,同时KV缓存压缩率达到68.75%,并在昇腾平台上取得了明显优于主流GPU方案的推理效率。 这一进展带来多上的产业价值:技术层面,提供了“零重训”的架构迁移路径;生态层面,已兼容vLLM等主流推理框架;经济层面,可帮助企业将架构改造成本降低90%以上。目前,该成果正通过昇腾开放生态加速推进产业化,预计将推动金融、医疗等长文本处理场景的技术升级。
大模型应用从“能用”走向“好用、易用、低成本可复制”,关键往往在于能否走通可规模化的工程路径。以结构转化减少对重训的依赖、以软硬件协同提升长上下文推理效率,说明了科研成果面向落地的务实方向。面向更长文本、更高并发、更复杂任务的下一阶段竞争,谁能在可靠性可控的前提下降低成本、完善生态,谁就更有机会把技术优势转化为发展优势。