(问题)人工智能从技术验证走向行业应用,算力供给的结构性矛盾日益突出;一方面,面向数百卡规模的超节点训练场景中具备优势,但建设周期长、交付与运维复杂、投入成本高;另一上,8卡等通用服务器部署灵活、价格相对可控,却在大模型训练与规模化推理中面临互连效率、资源调度和能效瓶颈。尤其在金融、医疗、制造等场景,企业更看重“上线速度、稳定交付与持续推理成本”,算力“用得起、用得稳、用得快”成为新诉求。 (原因)导致上述矛盾的核心,在于应用形态与算力消费方式正在变化。随着智能体等技术推动应用从对话交互走向任务执行,算力需求从“集中训练”加速转向“在线推理”。推理服务强调高并发、低时延和可持续扩展,算力基础设施不再只是“算力工厂”,更像是持续产出Token的“服务工厂”。此外,大模型参数规模与行业数据安全要求叠加,使得不少机构希望在本地或专属环境中部署推理能力,这对设备的机房适配、交付周期、运维门槛提出更高要求。 (影响)供给模式若不能及时调整,直接影响行业智能化进程:其一,中小企业与科研团队往往受制于机房条件、工程能力与预算,算力“可及性不足”会拖慢应用落地;其二,分散采购的通用服务器在集群效率上存在天然损耗,推理成本可能随规模扩大而上升——影响商业闭环;其三——算力建设若一味追求“大而全”,容易形成资源闲置与能耗压力,不利于集约化、绿色化的发展导向。 (对策),中科曙光发布箱式超节点scaleX40,意在以“适中规模+工程化交付”填补市场空档。据介绍,该设备集成40张GPU,算力约28PFLOPS(FP8),定位介于高端大规模超节点与通用服务器之间,面向训练与推理的综合需求。产品采用无线缆正交架构,通过计算节点与交换节点直接对插,减少传统布线与连接带来的部署与维护复杂度,并将访存带宽提升至80TB/s以上、显著降低互连时延;同时可适配标准19英寸机柜,降低机房改造门槛。据企业提供的对比测试数据,在接近成本水平下,其训练效率较由多台8卡服务器拼装的方案提升明显,推理吞吐提升幅度更为突出,意在把“堆服务器”带来的规模损耗压缩到更低。 围绕“算力即服务”的落地需求,企业同步强化全栈协同能力,配套分布式存储、高速网络与管理平台,形成从存储、网络到资源管理与应用适配的交付体系,并对大量主流模型进行预适配优化,降低“到货仍需二次集成”的时间成本。业内观点认为,科研机构与企业用户普遍希望获得“单机般易用”的体验,但又必须面对大模型带来的系统复杂性,工程化的一体交付与自动化管理成为降低门槛的关键环节。 (前景)从产业趋势看,算力需求分层将更加清晰:顶级训练仍需要超大规模互连与集群能力;而面向行业应用的主战场,更多在推理侧的稳定供给与成本优化。未来,模型结构逐步趋于稳定,将带动专用芯片与软硬协同优化持续推进;互连协议与生态标准走向统一,有望提升节点扩展与异构协同的灵活性。对设备与平台提供方而言,竞争焦点将从单点性能转向“综合效率”,包括能效、交付周期、运维自动化以及与行业软件的适配能力。以40卡等“中间层”产品为代表的分层供给路径,或将在算力中心“有序、集约、绿色”建设目标下获得更大应用空间,推动普惠算力向更多行业、更多主体延伸。
在数字经济快速发展的今天,算力已成为关键战略资源。scaleX40的推出不仅提供了技术创新,更探索出符合中国产业需求的算力供给方案。这种技术与需求紧密结合的发展模式,对我国人工智能产业很重要。随着更多企业参与创新,中国在全球算力格局中的地位将更提升。