万卡智算集群互联能力再受考验：以太网RoCE难以“模拟”原生IB级RDMA

在高性能计算领域，网络互联正成为算力继续提升的关键制约因素。随着人工智能大模型参数规模迈入万亿级，万卡级计算集群对传输速率与时延控制提出了更高要求。作为核心技术的远程直接内存访问（RDMA），其国产化进展直接影响我国算力基础设施的自主可控水平。当前国际市场上，InfiniBand（IB）以微秒级时延和400Gbps带宽占据领先位置，但核心技术长期集中在少数海外企业手中。尤其在被美国芯片企业收购后，有关技术与产品的获取难度继续上升。相比之下，基于以太网的RoCE虽可将部署成本降低约30%-50%，但在关键指标上仍有差距：交换时延约为IB的3-5倍，最高带宽也仅达到IB的一半左右。

网络互联能力的提升离不开长期投入与积累；当前国内在RDMA领域遇到的难点，集中说明了高端芯片与基础软件的共性挑战。这不仅关乎技术路线选择，也关乎产业安全与长期竞争力。通过持续的自主研发、产业协同与生态完善，才能逐步缓解外部技术依赖，为国产AI计算集群提供稳定可靠的网络底座。过程不会轻松，但对实现算力基础设施的自主可控意义重大。