在高性能计算领域,网络互联正成为算力继续提升的关键制约因素。随着人工智能大模型参数规模迈入万亿级,万卡级计算集群对传输速率与时延控制提出了更高要求。作为核心技术的远程直接内存访问(RDMA),其国产化进展直接影响我国算力基础设施的自主可控水平。当前国际市场上,InfiniBand(IB)以微秒级时延和400Gbps带宽占据领先位置,但核心技术长期集中在少数海外企业手中。尤其在被美国芯片企业收购后,有关技术与产品的获取难度继续上升。相比之下,基于以太网的RoCE虽可将部署成本降低约30%-50%,但在关键指标上仍有差距:交换时延约为IB的3-5倍,最高带宽也仅达到IB的一半左右。
网络互联能力的提升离不开长期投入与积累;当前国内在RDMA领域遇到的难点,集中说明了高端芯片与基础软件的共性挑战。这不仅关乎技术路线选择,也关乎产业安全与长期竞争力。通过持续的自主研发、产业协同与生态完善,才能逐步缓解外部技术依赖,为国产AI计算集群提供稳定可靠的网络底座。过程不会轻松,但对实现算力基础设施的自主可控意义重大。