我国科研团队突破芯片能效瓶颈 新型模拟计算芯片实现228倍能效跃升

非负矩阵分解广泛应用于推荐系统、生物信息学和图像处理等领域;但随着数据规模扩大和实时性要求提高,传统数字芯片面临功耗、面积和访存开销不断上升的困境,边缘部署、在线训练和大规模迭代计算中的成本压力日益凸显。如何在保证算法效果的同时显著降低能耗、提升处理吞吐,成为推动应用落地的现实问题。 这个问题的根源在于两个上。一是非负矩阵分解涉及大量矩阵运算和迭代更新,对乘加操作和数据搬运高度敏感。二是数字计算虽然精度高、可靠性强,但在处理海量、重复、并行的线性代数计算时能量代价较高。特别是在存储与计算分离的体系下,数据频繁在存储器与计算单元间搬移,继续推高系统能耗和延迟。 针对这些痛点,北京大学团队将研究方向转向模拟计算路线,研制出基于阻变存储器(RRAM)的非负矩阵分解模拟计算求解器。在电路层面,团队提出了可重构紧凑型广义逆电路的关键创新,利用电导补偿原理以更少的计算单元实现同等运算功能,对非负矩阵分解的核心计算环节进行针对性优化,实现了"一步求解"的电路化实现,在面积和能耗上取得显著优势。 验证测试涵盖多个典型应用场景。在图像压缩中,该芯片的图像精度与全精度数字计算机相近,同时将存储空间需求降低约一半。在推荐系统中,预测误差率与数字芯片高度接近,意义在于实际业务可对齐性。最具代表性的是Netflix规模数据集的推荐系统训练任务:该芯片计算速度较先进数字芯片提升约12倍——能效比提升超过228倍——充分展现了在大规模迭代计算中缓解能效瓶颈的能力。 此进展超越了单项指标提升。对实时推荐系统而言,能效提升意味着单位能耗可承担更多在线更新与特征迭代,直接改善用户体验并降低算力成本。对高清图像处理和视频任务而言,压缩与计算的协同优化有望提升端侧处理能力。在基因数据分析等需要处理海量样本和复杂矩阵分解的领域,低功耗并行计算可能降低实验与计算门槛,推动更广泛的应用扩展。从更宏观的角度看,模拟计算与新型存算一体器件的结合,为突破传统架构下的"功耗墙"和"带宽墙"提供了可验证的技术路径。 从实验室走向应用,还需在工程和生态层面同步推进。首先要强化对器件一致性、噪声和长期稳定性的评估与校准,建立可复现的测评体系,确保在不同任务和数据分布下保持可控误差。其次推进算法与硬件协同设计,围绕非负矩阵分解等典型算子形成可迁移的方法学,降低从实验验证到系统集成的门槛。再次要构建软硬件工具链与接口标准,让开发者在获得能效优势的同时不牺牲可用性。最后结合应用场景优化部署策略,在云端训练、边缘推理、端侧处理间形成合理分工,充分释放低功耗硬件的系统价值。 随着数据规模增长和能耗约束趋紧,高效计算将成为关键竞争力。这项成果表明,围绕特定高价值算子开展"面向任务的芯片设计",有望在速度与能效上取得数量级提升,为更多基础模型和关键应用提供可扩展的硬件支撑。若有关技术在制造工艺、系统集成和应用适配上持续成熟,模拟计算芯片有望在推荐、图像处理、生物信息等领域形成规模化应用,推动智能应用向更高效、更低功耗方向发展。

全球芯片产业正处于从通用计算向专用计算转变的关键时期。北京大学团队的这项研究成果展现了我国在芯片设计领域的创新能力,更为人工智能应用中的能耗瓶颈问题提供了新的解决思路。随着模拟计算芯片技术的继续完善和产业化推进,有望在数据中心、边缘计算、物联网等领域实现广泛应用,为我国人工智能产业的高质量发展提供新的动力。