算力规模越扩越大,未来算力规模越扩越大

各位,在全球数字经济发展得这么快,智能化步子也迈得这么大的情况下,算力这个东西,早就变成核心基础设施了,变得越来越重要。不过呢,现在算力规模越扩越大,我们在平衡硬件成本、软件维护、系统可靠性和能源效率这方面,就面临着不小的难题。英伟达公司的负责人就这个问题在国际消费电子展上聊了聊。有的人觉得用低成本硬件就能把门槛给降下来,英伟达那边却说硬件采购顶多算是个开头,往后软件生态的长期维护才是最关键的。他们强调现在这个行业已经开始看单位能源和资金成本能产生多少计算产出了。如果光想着砍硬件成本,说不定软件适配起来就会复杂,系统也容易碎片化,最后全生命周期的总拥有成本反而会变高。这个判断其实也跟算力应用场景变了有关系。听说全球有差不多四分之一的计算任务都是开源模型给的。这些模型以前主要是给大云服务商用,现在已经开始往企业本地的集群里跑了。这种“去中心化”的趋势,逼着算力设施得有通用性、稳定性,还有可持续运维的能力。 英伟达这次还展示了他们的新一代平台技术进展。平台设计是托盘式模块化的,能让在系统运行时就更换关键部件,实现“运行中维护”,这就大大减少了停机时间和运维的麻烦。供应链方面更是厉害,单个节点组装时间从以前的几小时缩短到了五分钟。在供电这块儿也是重头戏。现在的推理任务有时候会让瞬时功耗剧烈波动,甚至能达到25%以上,搞得数据中心不得不留好多冗余电力,实际利用率反而低。新平台通过电子设计把机架内部的电力负荷给平滑了。哪怕单个处理器热设计功耗高,给电网看到的负载曲线还是很平稳的。这么一来电力容量利用率就趋近极限了。 为了应对可靠性、能源消耗还有供应链韧性这些挑战,英伟达不仅把点上的性能提上去了,更是花了心思去做高可靠、易扩展、低运维负担的系统级解决方案。在绿色能源方面也没落下,全面采用液冷散热还简化了内部线缆布局。将来随着人工智能、科学计算这些应用越来越深,算力基础设施肯定要往硬件标准化、软件平台化、运维自动化和能源绿色化这几个方向走。企业不能光盯着硬件成本看了,还得重视软硬件协同、系统能效和全生命周期管理才行。 现在的全球算力产业已经进入深度整合和价值重构的新阶段了。技术创新不能光看参数提升了,得解决实际部署中的工程难题和运营痛点。怎么在成本、效能、可靠性还有绿色低碳之间找个平衡点,才是推动产业健康发展的关键命题。这些经验对我们国家相关产业链的升级整合也是很有帮助的启示呢。