(问题)当前大模型能力快速提升,但“黑箱”属性与高算力成本成为产业落地的两大瓶颈:一方面,模型决策过程难以被追溯与解释,影响其在金融、政务、工业等高要求场景的可信应用;另一方面,密集模型参数规模持续扩张,推理成本和能耗压力上升,制约算力资源受限地区和行业的规模化部署。
如何在保持性能的同时提升可解释性、降低部署门槛,成为技术与产业共同关切的方向。
(原因)Circuit Sparsity以原生稀疏为核心路径,通过结构性稀疏将计算与信息流“显式化”。
据介绍,该模型参数量约0.4B,权重稀疏度极高,绝大多数权重为零,借助动态剪枝等机制将有效“电路”规模相较密集形态显著压缩,并以更可读的结构呈现模型内部行为。
与此同时,其通过“桥梁网络”等方式连接稀疏与密集模型,使对既有模型行为进行更可控的解释与编辑成为可能。
业内人士指出,这种思路突破了单纯依赖参数规模竞争的路径依赖,为“高性能+高可解释”的兼顾提供了新的工程范式。
(影响)在产业侧,稀疏模型的优势能否兑现,很大程度取决于软硬件协同能力。
ModelHub XC此次完成适配与验证,意味着该类新型稀疏架构在国产算力平台上具备可运行、可评测、可部署的基础条件。
测试数据显示,在昇腾910B4 NPU上,单条请求平均延迟约2.00秒,而在CPU环境下约56.21秒;吞吐量方面,NPU约0.50条/秒,CPU约0.02条/秒。
由“分钟级”到“秒级”的跨越,显示出极度稀疏模型对并行计算与内存访问效率的高度敏感,也反映专用NPU在此类结构上的适配潜力。
对应用方而言,时延下降与吞吐提升意味着交互体验改善、服务并发能力增强,有助于在端到端成本可控的前提下探索更复杂的业务流程。
(对策)推进稀疏模型规模化落地,需要在算法、编译与工程体系上形成闭环:其一,针对稀疏结构的计算图优化与算子实现要进一步完善,使稀疏模式在硬件上“跑得起来、跑得更快”;其二,围绕训练—推理—部署的工具链需具备可观测、可调优能力,降低开发与运维门槛;其三,面向可信应用场景,应将可解释性能力与评测体系、合规要求相衔接,形成从模型机制到应用治理的链条。
ModelHub XC定位为面向信创算力生态的模型与工具平台,提供覆盖训练、推理到部署的流程化支撑,能够在一定程度上承接上述需求,推动开源模型在国产硬件环境中的工程化验证与应用迁移。
(前景)从技术演进看,稀疏化与“电路化”正在成为大模型发展的重要支线:一方面,结构性稀疏有望在性能不降甚至提升的同时降低计算量与能耗,契合绿色算力与成本约束趋势;另一方面,可解释与可编辑能力将成为行业应用走向深水区的“通行证”,尤其在高风险、高责任场景中,透明度与可追责性将直接影响应用边界。
随着更多稀疏架构与工具链完善,叠加国产NPU的并行与内存带宽优势,未来大模型或将呈现“更少参数、更清晰结构、更强工程可控”的发展态势,并带动国产算力生态在标准、工具与应用层形成更强的协同与竞争力。
当全球人工智能竞赛进入"下半场",性能与可解释性的平衡将成为决定技术生命力的关键指标。
此次稀疏化模型在国产平台的落地,既是一次技术能力的检验,更是一次发展路径的启示——在追赶国际前沿的同时,中国信创产业正通过精准把握技术演进趋势,在人工智能的"透明化革命"中抢占战略制高点。
未来,随着稀疏化技术与垂直场景的深度融合,或将催生更具颠覆性的创新应用。