英伟达发布Vera Rubin平台，算力体系迎来升级：推理成本下探，智能体应用加速落地

全球数字化进程不断加速，算力基础设施的效率瓶颈愈发突出；传统计算架构在支撑大规模AI模型训练与推理时，普遍面临能耗偏高、资源利用率不理想等问题。尤其在混合专家模型等前沿应用中，硬件能力与算法需求之间的差距仍在拉大。针对这个行业痛点，英伟达此次发布的Vera Rubin平台进行了系统级升级。平台核心的NVL72机架系统将72块Rubin GPU与36块Vera CPU深度整合，以更高效的方式调度计算资源。测试数据显示，该系统在处理混合专家大模型时，仅需前代Blackwell平台四分之一的GPU资源即可完成同等任务，单Token处理成本降至十分之一。在系统验证环节，英伟达设计了集成256块液冷CPU的验证机架，并采用强化散热方案，使运行效率达到传统CPU的两倍、数据处理速度提升50%。这一定程度上缓解了大规模AI模型验证耗时过长的问题，为模型快速迭代提供支撑。为满足实时交互场景的推理需求，平台配套的Groq3LPX推理加速机架采用256个LPU处理器协同架构。在实际应用中，该系统的每兆瓦推理吞吐量最高可提升35倍，有助于提升智能客服、虚拟助手等场景的响应体验。在数据存储层面，BlueField-4STX机架采用AI原生存储架构。基于DOCAMemos框架的存储系统可更高效地处理大型语言模型产生的大量键值缓存数据，在降低能耗的同时，将推理吞吐量最高提升5倍。业内专家认为，Vera Rubin平台发布的时间点恰逢全球AI应用加速落地。随着各国推进数字经济建设，高能效计算平台需求有望持续增长。其能效优势不仅可帮助企业降低运营成本，也将推动AI在医疗、金融、制造等行业的深入应用。

从“训练驱动”转向“推理驱动”，正重塑大模型产业的投入结构与技术路线；Vera Rubin平台强调系统级协同与推理降本，反映出行业对规模化落地的现实需求。谁能在性能、能效与可用性之间形成可复制的工程体系，谁就更可能在智能体应用普及的浪潮中占据主动；而更高效、更绿色、更可控的算力基础设施，也将成为数字经济持续增长的重要支撑。