我国科研团队攻克芯片关键技术 能效比提升超228倍创全球新纪录

长期以来,推荐系统、图像处理、生物信息学等领域面对的共同挑战,是数据规模持续膨胀与算力、能耗约束之间的矛盾。

一方面,高维数据带来更强的表达能力,也意味着更复杂、更频繁的矩阵运算;另一方面,传统数字计算在“搬运数据”与“反复迭代”中消耗大量时间和能量,成为实时响应、边缘部署与绿色计算的瓶颈。

在此背景下,如何在保证精度的同时降低功耗、提升速度,成为智能应用走向规模化落地的关键问题之一。

非负矩阵分解作为挖掘高维数据潜在结构的核心方法,被广泛用于把复杂数据拆解为更易解释的低维表示。

例如在推荐系统中,可用于提取用户偏好与物品特征;在图像处理中,可用于压缩和重建;在生命科学数据分析中,可用于从大量测序数据中提取关键模式。

但该类算法往往依赖大量矩阵乘法与求逆相关运算,计算链条长、迭代次数多,对硬件提出高吞吐、低能耗的双重要求,这也是其在超大规模场景中进一步提速降耗的难点所在。

此次北京大学团队提出的方案,聚焦于“算法核心步骤的硬件化重构”。

研究团队研制了基于阻变存储器的非负矩阵分解模拟计算求解器,并创新性设计可重构的紧凑型广义逆电路。

其思路在于利用模拟计算在阵列内直接完成加权求和等运算的天然优势,以电导变化承载计算过程,减少数据在存储与计算单元之间的往返搬运;同时通过电导补偿原理,以更少的计算单元实现同等运算功能,将非负矩阵分解过程中最关键的计算环节进行压缩优化,实现“一步求解”,从而在芯片面积与能耗上获得更优表现。

相关成果近日发表于《自然·通讯》。

从测试验证看,研究团队搭建平台在典型应用中评估性能。

在图像压缩任务中,该芯片在图像质量损失与全精度数字计算机结果相近的情况下,实现存储占用降低约一半,体现出在“效果—成本”之间的综合优势;在推荐系统应用中,其预测误差率与数字芯片计算结果保持高度一致,说明在实际业务更关注的指标上具有可用性。

在网飞规模数据集的推荐系统训练任务中,相较先进数字芯片,计算速度约提升12倍,能效比提升超过228倍,显示出在大规模训练场景中兼顾性能与能耗的潜力。

业内普遍认为,能效提升之所以成为衡量新型计算的重要指标,是因为当下智能计算的边界正从数据中心向终端侧、边缘侧延伸:实时推荐需要更短的延迟与更高的吞吐,高清图像与视频处理追求高质量与低功耗并存,基因数据分析则面临海量样本与复杂计算的叠加压力。

传统路径更多依赖制程升级和架构优化,但在摩尔定律放缓、能耗墙显现的条件下,面向特定算法的“软硬协同”与新型器件路线,正被视为突破口。

模拟计算通过“在存储处计算”的方式减少数据搬运损耗,为能效改善提供了新的工程空间。

同时也需要看到,实验室成果走向产业应用仍需跨越若干关键环节:其一,器件一致性与长期稳定性将直接影响大规模部署的可维护性;其二,不同数据集、不同任务对精度的容忍度不同,需要建立可解释、可量化的误差管理机制;其三,生态适配与工具链完善决定了新硬件能否被算法工程快速调用。

面向这些问题,下一步可在可靠性评估、系统级软硬件协同、面向场景的算子库与编译支持等方面持续推进,推动从“单点指标领先”向“可集成、可迭代、可规模化”迈进。

从前景看,随着推荐系统、视觉处理、生物信息计算等应用对实时性与能耗提出更高要求,围绕关键算法的专用加速与低功耗计算将持续升温。

孙仲表示,该研究有望为实时推荐系统、高清图像处理、基因数据分析等场景带来技术革新,推动相关应用向更高效率、更低功耗方向发展。

若后续在工艺集成、规模化制造与软件生态上实现突破,这类模拟计算芯片有望成为支撑下一阶段智能计算基础设施的重要补充。

这项研究成果代表了我国在芯片设计领域的自主创新能力。

在国际芯片竞争日趋激烈的背景下,从基础理论到工程实现的突破尤为珍贵。

新芯片不仅在性能指标上实现了量级提升,更重要的是开辟了模拟计算在人工智能领域应用的新思路。

随着后续研究的深入和产业化进程的推进,这类高效能芯片有望成为下一代数据处理的重要基础设施,为我国人工智能产业的可持续发展提供强有力的技术支撑。