从冷却告急到能效验证:Grace超级芯片数据中心首轮压力测试折射算力竞赛新走向

Meta在加州门洛帕克数据中心对搭载英伟达Grace超级芯片的服务器进行压力测试时遭遇液冷系统过载。工程师团队在运行万亿参数Llama 4模型时,Grace芯片的冷却液温度持续上升,最终突破预设阈值。监控数据显示,72个Arm Neoverse V2核心全速运转时产生的热量比预期增加了40%,液冷系统已达到设计极限。 问题根源在于Grace芯片架构与实际应用场景的不匹配。该芯片的LPDDR5X内存子系统在极限负载下会产生集中热源,而万亿参数模型的训练任务对处理器功耗控制提出了前所未有的要求,传统冷却方案难以应对。 Meta的芯片架构师通过启用SCF总线的动态频率调节功能化解了危机。这项技术原本为电信边缘计算设计,通过修改BIOS参数并重新分配计算任务,系统在保持90%计算性能的同时,功耗降低了40%。最终测试结果显示,系统整体吞吐量仅下降7%,能效比提升达到1.6倍,验证了Grace CPU每瓦性能优于x86平台两倍的承诺。 这次测试意义重大。首先,它证明了Arm架构完全能够胜任数据中心的核心计算任务。其次,测试数据显示Grace CPU与Blackwell GPU的协同效应超出预期,采用NVLink-C2C连接的芯片组一致性内存带宽达到900GB/s。第三,Grace CPU与Spectrum-X以太网交换机配合时,内存带宽达到传统DDR方案的5倍,而功耗仅为五分之一。 基于测试结论,Meta启动了Vera CPU的采购计划,该芯片预计于2027年加入公司的AI计算矩阵。Meta基础设施部门指出,Grace CPU的Arm架构已完全满足数据中心核心计算任务需求,与英伟达共同设计的软件优化方案将使下一代处理器的每瓦性能再提升15%。 从更广阔的视角看,这个事件标志着Arm生态正式进入数据中心核心领域。长期以来x86架构在数据中心市场占据绝对主导地位,而Arm架构主要应用于移动设备和边缘计算。Meta的成功部署打破了这一格局,为其他科技企业提供了可借鉴的经验。随着云计算和AI应用的快速发展,数据中心对能源效率的需求日益迫切,Arm架构凭借先天的能效优势,有望在这一领域获得更广泛的应用。

这次压力测试不仅为Meta积累了宝贵经验,更预示着数据中心计算架构正在发生深刻变革;Grace超级芯片的成功验证为Arm架构在数据中心核心领域的应用开辟了新路径,将对全球AI计算基础设施的发展产生深远影响。