我国自主可控高速网络技术取得重大突破超算互联网核心节点实现关键跨越

问题随着大模型训练与高性能计算加速融合，智算集群规模迅速扩大，网络互联逐渐成为影响算力利用率的关键因素。行业反馈显示，当GPU等计算资源规模达到上万甚至更高时，数据同步、参数更新和任务调度对网络时延、拥塞控制和可靠性的要求显著提高。如果互联能力不足，集群容易出现“算力等数据”的情况，不仅拖慢训练周期，还会增加电力与运维成本。原因长期以来，国内高端计算网络主要依赖成熟的专用互联生态，其优势于软硬件协同度高、规模化经验丰富，但也面临采购成本高、供给稳定性不足以及技术获取难度大等问题。通用以太网方案虽然成本较低且生态成熟，但在超大规模集群场景下，如何平衡低时延、可扩展性和可运维性仍需长期工程验证。因此，智算中心对“高性能、可规模化、自主可控”的互联能力需求迫切。影响 3月12日，中科曙光在郑州发布ScaleFabric方案，并在郑州超算中心进行了验证与运行数据披露。测试显示，该方案在3万卡级别集群中持续测试约10个月，部分关键指标接近同类高端互联方案；端到端时延和交换转发时延分别达到微秒级和百纳秒级，并在大规模节点下提升了集群效率。企业表示，该方案在同等规模建设中具备综合成本优势，且单一网络域支持更大规模扩展。业内人士指出，若这些数据能在更多场景复现，将为国内智算中心提供更丰富的网络选择，有助于降低系统成本、提升算力利用率，并推动从芯片到协议栈的协同优化。对策提升智算互联能力需要系统性突破，而非单点优化。一上，应加强基于真实负载的测试验证，跨行业训练任务、混合精度通信、长期稳定性及故障恢复等建立可量化、可对比的指标体系，推动标准化部署。另一上，需共同推进节能降耗技术。近年来，液冷技术在高功率密度集群中快速普及，低PUE数据中心显著降低了全生命周期成本。网络与散热、电源与机房架构的协同设计，将成为超大规模智算中心降本增效的关键。前景随着国家超算互联网建设推进，算力资源正从单体机房向跨区域协同发展，互联网络的能力边界将继续扩展。未来，智算中心将进入“规模扩张与效率提升并重”的阶段：既要增加供给，也要提升单位算力的有效产出。国产高端互联方案的成熟有望补齐关键短板，增强产业链韧性，并带动更多厂商围绕协议、工具链、监控运维和应用适配形成合力。需要注意的是，高端互联生态的成熟不仅依赖性能指标，还需验证兼容性、可维护性和长期迭代能力，这需要在更广泛的应用实践中持续检验。结语高速互联网络是释放大规模算力效能的核心基础设施。ScaleFabric的发布与验证，展现了我国在智算关键环节补齐短板、构建自主可控体系的最新进展。未来，只有坚持以应用驱动技术迭代、以生态推动规模化落地、以标准促进互联互通，才能将阶段性突破转化为长期竞争力，为数字经济高质量发展夯实算力基础。

高速互联网络是释放大规模算力效能的核心基础设施；ScaleFabric的发布与验证，展现了我国在智算关键环节补齐短板、构建自主可控体系的最新进展。未来，只有坚持以应用驱动技术迭代、以生态推动规模化落地、以标准促进互联互通，才能将阶段性突破转化为长期竞争力，为数字经济高质量发展夯实算力基础。

我国自主可控高速网络技术取得重大突破 超算互联网核心节点实现关键跨越

我国自主可控高速网络技术取得重大突破超算互联网核心节点实现关键跨越