英伟达发布新一代计算平台 芯片性能与能效实现代际突破

当前全球AI产业正处于从大模型预训练向智能体应用转变的关键阶段。

智能体系统对计算基础设施提出了前所未有的挑战,既需要强大的训练能力支撑模型优化,又需要低延迟、高吞吐的推理能力满足实时交互需求。

在这一背景下,英伟达推出的Vera Rubin平台应运而生,旨在为全球AI产业提供从预训练到推理的完整解决方案。

从技术创新看,Vera Rubin平台的核心竞争力体现在多个维度。

Vera CPU采用英伟达深度定制的Arm v9.2-A架构,单颗芯片集成88个核心和144个线程,指令级并行度相比上代实现1.5倍提升。

更具突破性的是该平台首次引入"空间多线程"技术,通过物理隔离流水线组件,使多个线程能够在单核上真正并行执行,有效消除了传统多线程技术中的资源竞争和算力损耗。

这一创新设计直接提升了单位芯片的计算效率。

在系统级性能表现上,新一代NVL72机架通过NVLink 6技术连接72块Rubin GPU和36块Vera CPU,实现了训练和推理效率的双重突破。

与上一代Blackwell平台相比,该系统仅需四分之一的GPU即可完成混合专家大模型训练,这意味着用户可以用更少的硬件投入完成相同规模的模型优化。

在推理环节,每瓦吞吐量提升10倍,单Token成本降至十分之一,大幅降低了AI应用的运营成本。

针对模型验证需求,Vera CPU机架集成256块液冷CPU,运行效率达到传统CPU的两倍,速度提升50%。

为应对智能体系统对低延迟和长上下文的特殊需求,英伟达推出Groq 3 LPX推理加速机架,包含256个LPU处理器。

该系统与Vera Rubin平台结合后,每兆瓦推理吞吐量最高可达35倍提升,能够满足实时对话、多轮交互等应用场景的严苛要求。

在数据存储层面,全新BlueField-4 STX机架通过DOCA Memos框架,高效处理大型语言模型生成的海量键值缓存数据,推理吞吐量最高提升5倍,同时显著降低能耗。

从战略意义看,Vera Rubin平台标志着英伟达正式进入传统CPU市场,与英特尔、AMD等传统芯片巨头展开直接竞争,同时向云计算巨头自研的Arm架构处理器发起挑战。

这一举措反映出英伟达在AI芯片领域的绝对优势地位,以及其向全栈基础设施提供商转变的战略决心。

通过整合GPU、CPU、存储、网络等多个环节,英伟达正在构建一个完整的AI计算生态。

从产业影响看,Vera Rubin平台的推出将加速智能体AI的商业化进程。

更高效的训练和推理能力意味着企业可以以更低的成本部署和运营AI系统,这将进一步降低AI技术的应用门槛。

同时,平台在能效方面的显著提升也符合全球绿色计算的发展趋势,有助于缓解数据中心的能源压力。

从“比拼峰值算力”到“追求可用算力”,大模型产业正进入以效率为核心的新阶段。

Vera Rubin平台的发布,体现了算力提供方式向系统化、平台化升级的趋势。

谁能在性能、能耗、成本与生态之间找到更优解,谁就更有可能在智能体时代的应用浪潮中赢得先机。