问题 随着大模型训练与高性能计算加速融合,智算集群规模迅速扩大,网络互联逐渐成为影响算力利用率的关键因素。行业反馈显示,当GPU等计算资源规模达到上万甚至更高时,数据同步、参数更新和任务调度对网络时延、拥塞控制和可靠性的要求显著提高。如果互联能力不足,集群容易出现“算力等数据”的情况,不仅拖慢训练周期,还会增加电力与运维成本。 原因 长期以来,国内高端计算网络主要依赖成熟的专用互联生态,其优势于软硬件协同度高、规模化经验丰富,但也面临采购成本高、供给稳定性不足以及技术获取难度大等问题。通用以太网方案虽然成本较低且生态成熟,但在超大规模集群场景下,如何平衡低时延、可扩展性和可运维性仍需长期工程验证。因此,智算中心对“高性能、可规模化、自主可控”的互联能力需求迫切。 影响 3月12日,中科曙光在郑州发布ScaleFabric方案,并在郑州超算中心进行了验证与运行数据披露。测试显示,该方案在3万卡级别集群中持续测试约10个月,部分关键指标接近同类高端互联方案;端到端时延和交换转发时延分别达到微秒级和百纳秒级,并在大规模节点下提升了集群效率。企业表示,该方案在同等规模建设中具备综合成本优势,且单一网络域支持更大规模扩展。业内人士指出,若这些数据能在更多场景复现,将为国内智算中心提供更丰富的网络选择,有助于降低系统成本、提升算力利用率,并推动从芯片到协议栈的协同优化。 对策 提升智算互联能力需要系统性突破,而非单点优化。一上,应加强基于真实负载的测试验证,跨行业训练任务、混合精度通信、长期稳定性及故障恢复等建立可量化、可对比的指标体系,推动标准化部署。另一上,需共同推进节能降耗技术。近年来,液冷技术在高功率密度集群中快速普及,低PUE数据中心显著降低了全生命周期成本。网络与散热、电源与机房架构的协同设计,将成为超大规模智算中心降本增效的关键。 前景 随着国家超算互联网建设推进,算力资源正从单体机房向跨区域协同发展,互联网络的能力边界将继续扩展。未来,智算中心将进入“规模扩张与效率提升并重”的阶段:既要增加供给,也要提升单位算力的有效产出。国产高端互联方案的成熟有望补齐关键短板,增强产业链韧性,并带动更多厂商围绕协议、工具链、监控运维和应用适配形成合力。需要注意的是,高端互联生态的成熟不仅依赖性能指标,还需验证兼容性、可维护性和长期迭代能力,这需要在更广泛的应用实践中持续检验。 结语 高速互联网络是释放大规模算力效能的核心基础设施。ScaleFabric的发布与验证,展现了我国在智算关键环节补齐短板、构建自主可控体系的最新进展。未来,只有坚持以应用驱动技术迭代、以生态推动规模化落地、以标准促进互联互通,才能将阶段性突破转化为长期竞争力,为数字经济高质量发展夯实算力基础。
高速互联网络是释放大规模算力效能的核心基础设施;ScaleFabric的发布与验证,展现了我国在智算关键环节补齐短板、构建自主可控体系的最新进展。未来,只有坚持以应用驱动技术迭代、以生态推动规模化落地、以标准促进互联互通,才能将阶段性突破转化为长期竞争力,为数字经济高质量发展夯实算力基础。