问题:随着大模型参数规模快速迈向万亿级,训练与推理对计算、存储与网络的协同能力提出了更高要求;行业普遍面临的挑战是:单机算力增长难以线性支撑模型扩张,传统“服务器堆叠+以太网/常规互联”的方式在规模化之后容易出现通信开销上升、资源利用率下降,以及任务中断与恢复成本增加等问题,直接影响训练周期、能耗和交付效率。 原因:大模型训练是一项高度并行的系统工程,瓶颈往往不只在算力芯片本身,还在跨节点互联带宽、时延,以及内存与数据访问方式。模型越大,参数与激活值交换越频繁,通信与同步成本越明显;当集群扩展到成千上万张加速卡时,互联拓扑、协议栈效率、故障域管理和调度策略都会放大系统损耗。此外,行业用户对大模型落地的诉求也从“能训”转向“训得快、训得稳、用得起”,推动算力底座从“部件堆叠”转向“系统级优化”。 影响:华为此次发布的AI超节点Atlas950 SuperPoD与通算超节点TaiShan950 SuperPoD,重点在于通过系统架构与互联协议的协同创新提升集群整体效率。其中,“灵衢”(UnifiedBus)互联协议强调超大规模互联能力、超大带宽与超低时延,并引入内存统一编址等特性,目标是在超节点内实现最高可达8192卡互联,让大规模集群在逻辑体验上更接近“一台计算机”。业内人士认为,该路线有助于减少通信与同步带来的额外开销,降低训练过程中的停顿与重算,提升有效算力利用率,从而缩短训练周期,并改善推理吞吐与响应。此外,产品线覆盖AI训练、推理与通用计算,有利于支撑从研发到生产的全流程算力需求,满足政企客户在智能化转型中的多样化场景。 对策:从行业实践看,缓解大模型时代的算力约束,需要“硬件、互联、软件、运维”一体化推进。一是以超节点为单元进行规模化构建,把互联能力、资源池化与调度管理前置到系统设计层面,减少跨层“拼装式”带来的不确定性。二是通过统一互联协议与软硬协同优化提升通信效率,降低时延与拥塞风险,增强大规模训练的稳定性与持续运行能力。三是根据业务特点提供分层分级的算力供给:AI侧以Atlas950 SuperPoD及Atlas850E等覆盖训练与推理多场景需求;通算侧以TaiShan950 SuperPoD及TaiShan500、200系列形成高、中、低梯度配置,便于不同规模用户按需部署、逐步升级。四是面向产业落地,强化数据中心能效与运维体系建设,以更高的资源利用率和更低的系统损耗优化算力成本结构,提升企业“用得起、用得好”的可行性。 前景:当前,大模型正从技术竞速进入应用深化阶段,算力底座能力将直接影响模型迭代速度与行业渗透广度。随着智能制造、医疗健康、金融服务、交通出行等领域对模型能力的需求上升,市场更需要可复制、可扩展、可运营的算力基础设施。业内预计,未来一段时间,面向大模型的系统级架构将加速普及,超节点化、集群化与统一互联协议等方向可能成为数据中心建设的重要选择之一。同时,在全球科技产业链重构与算力需求快速增长的背景下,构建更开放、稳定、可持续的算力生态,将成为企业提升竞争力与产业协同效率的重要抓手。
在全球数字化进程加速的背景下,计算力已成为衡量国家竞争力的重要指标。华为此次技术突破不仅反映了中国企业在前沿领域的研发能力,也表明算力供给方式正在发生显著变化。未来十年,随着量子计算、光电融合等技术的协同发展,“像使用水电一样使用算力”的愿景有望逐步落地,这仍需要产学研各方的持续协作与长期投入。(完)