国家超算互联网郑州核心节点启动 3万卡国产AI算力池投入运营

随着大模型训练与行业智能化应用快速扩张,算力供给结构性紧张、资源分散利用率不高、国产软硬件协同仍需磨合等问题日益凸显。

尤其在科研创新和产业升级中,需求呈现“规模更大、迭代更快、算力更稳定”的特点,传统单点式建设难以兼顾效率、成本与安全可控,迫切需要更高水平的统筹调度与资源池化能力。

在这一背景下,国家超算互联网郑州核心节点上线试运行引发关注。

由中科曙光提供的3套万卡级超集群系统在郑州核心节点同步投入试运行,形成实际运营的3万卡国产算力池,面向万亿参数模型训练、高通量推理、面向科学研究的计算任务等大规模计算场景提供支撑。

该节点的试运行,标志着超算互联网在“节点能力提升”和“资源组织方式升级”方面迈出关键一步。

造成算力“供需矛盾”的原因,既有需求端快速爆发,也有供给端长期存在的结构性短板。

一方面,大模型与行业应用带动训练、推理、数据处理等多环节算力持续攀升,算力需求从“间歇式”转向“常态化”。

另一方面,我国算力资源过去更多以分散建设为主,跨区域、跨中心调度成本较高,算力规格、软件栈、任务编排差异导致“有算力但不好用、能用但不够快”的情况仍在部分场景出现。

更重要的是,算力基础设施与应用生态的协同发展需要时间,单一主体难以完成跨行业、跨区域的资源打通与服务标准化。

郑州核心节点试运行的意义,在于通过“规模化集群+网络化调度”的方式提升资源供给能力和使用效率。

一是把分散的计算资源转化为可统一调用的服务能力,降低科研机构、中小企业和创新团队获取高性能算力的门槛。

二是以国产算力池为核心,推动软硬件适配、任务调度、系统运维等全链条能力提升,为关键领域提供更可控、更稳定的算力底座。

三是更好支撑“从训练到推理”的全周期需求,既满足前沿模型研发的高强度训练,也面向行业落地提供高吞吐推理能力,为应用侧规模化部署提供条件。

从更大范围看,国家超算互联网的资源整合正在加速推进。

公开信息显示,超算互联网已接入14个省市,汇聚30多家国家级超算中心与智算中心,整合形成15万余加速卡与200万核心的异构算力资源池,并提供近70种规格算力服务,用户规模已突破100万。

与过去“单中心服务”为主的模式相比,平台化、网络化、标准化的服务方式有助于提高总体利用率,形成可持续的算力供给体系,也有助于推动算力像水电煤一样成为可便捷获取的基础性资源。

下一步应在“可用、好用、用得起”上持续发力,推动算力建设从规模扩张转向质量提升。

其一,完善跨中心调度与任务编排能力,强化对异构资源的统一管理,提升对不同模型、不同精度和不同场景任务的适配效率。

其二,推进算力服务标准体系建设,围绕计费方式、服务等级、数据安全、运维保障等形成更清晰的行业规则,增强用户可预期性。

其三,围绕科研与产业共性需求,构建更多开箱即用的工具链与行业解决方案,促进“算力—算法—数据—场景”协同。

其四,加强绿色低碳导向,通过能耗管理、液冷等技术路线与集约化部署降低单位算力成本,提升可持续供给能力。

展望未来,随着超算互联网节点能力增强与资源池进一步扩容,算力供给的“全国一张网”效应将更加显现。

预计在科学计算、工程仿真、药物研发、材料发现、气象与城市治理等领域,算力将更深度融入创新链与产业链,推动科研范式与生产方式加快变革。

同时,国产算力体系的规模化应用将倒逼生态完善,促进软硬件协同优化与关键能力沉淀,为高质量发展提供坚实支撑。

从跟跑到并跑,再到未来有望领跑,我国超算互联网建设正书写着科技自立自强的生动实践。

在数字化转型的关键时期,这一国家战略基础设施的不断完善,不仅将重塑我国科技创新生态,更将为高质量发展注入强劲动能。

如何用好这把"金钥匙",打开更多技术突破的大门,值得每一个科技工作者深思。