南京大学团队依托昇腾攻克MoE推理显存与时延瓶颈，推动大模型边缘部署提效降本

随着人工智能技术的快速发展，大语言模型参数规模已突破千亿乃至万亿级别。

在这一背景下，混合专家（MoE）稀疏架构因其能够兼顾模型容量与计算效率的优势，逐渐成为业界关注的核心方向。

然而，MoE模型在实际部署中面临着严峻的技术挑战。

当前MoE模型部署存在两大核心痛点。

其一，大参数量模型对显存的需求量巨大，导致硬件设备只能驻留有限的热点专家，大量参数需要频繁在内存与显存之间切换，这种频繁的数据交互严重影响推理效率，造成推理延迟显著上升。

其二，随着自主可控发展战略的推进，国内芯片平台对大模型的适配能力仍需加强，对国外高端硬件的依赖程度较高。

针对这些问题，南京大学李猛博士团队依托南京大学鲲鹏昇腾科教创新孵化中心的算力支持，基于华为昇腾芯片平台开展深入研究。

团队通过对MoE专家冗余性与等价性的创新观察，提出了一套完整的软硬件协同优化方案，构建了异构推理混合部署框架。

该方案的核心创新体现在四项关键技术上。

首先，团队创新设计了三级流水线并行架构，将参数加载、CPU串行计算与GPU并行推理进行深度重叠，大幅减轻数据传输压力，使计算与参数传输实现高度并行化。

其次，团队突破了传统路由机制的局限，基于专家等价性将专家划分为高分、中分、可替代低分三个等级，优先将核心专家缓存在显存中，利用等价专家灵活替代未加载的低分专家，从而显著减少冗余传输与显存占用。

第三，团队首创了共享专家引导的在线预取机制，无需离线训练即可精准预测后续所需的专家，提前完成参数加载，有效隐藏预取延迟。

最后，团队设计了双指针动态负载均衡算法，根据任务规模智能分配CPU与GPU算力，充分发挥异构计算的优势，规避小批量任务的加载延迟问题。

基于上述创新方案，团队针对华为昇腾芯片的特性与CANN软件栈，研发了异构推理加速引擎MoE-Ascend。

该引擎涵盖动态专家路由管理、专家预测预取、算子适配等核心功能模块，实现了对昇腾平台的深度适配与优化。

在保持模型精度无损的前提下，MoE-Ascend引擎将显存消耗降至原方案的一半，推理速度相比同类方法提升2倍以上，显存缓存命中率达到70%以上。

这一突破具有重要的现实意义。

它不仅为MoE大模型在自主芯片平台上的高效部署提供了新的技术方案，还有助于减少对国外高端硬件的依赖，推动自主芯片生态的完善。

该项目构建的推理优化工具链计划向昇腾社区、DeepModeling社区及GitHub开源，为广大科研与工程开发者提供可复用、可扩展的技术基础。

从应用前景看，该项目成果将广泛应用于AI推理平台、智能客服、语音生成等多个场景，特别是在边缘侧智能服务领域具有重要价值。

随着昇腾等自主NPU芯片性能的不断提升，这类优化方案将为国内AI产业的自主发展提供有力支撑。

这项源自基础研究的技术突破，生动诠释了"把论文写在祖国大地上"的科研导向。

在全球AI竞赛进入硬件适配深水区的当下，我国产学研团队通过底层创新打通从理论发现到产业应用的转化链条，不仅破解了"卡脖子"技术难题，更探索出自主创新与开放协同并举的发展范式，为构建安全可控的人工智能基础设施提供了重要实践样本。