中科曙光发布40卡箱式超节点，补齐算力供给缺口，推动大模型推理普惠化

（问题）人工智能从技术验证走向行业应用，算力供给的结构性矛盾日益突出；一方面，面向数百卡规模的超节点训练场景中具备优势，但建设周期长、交付与运维复杂、投入成本高；另一上，8卡等通用服务器部署灵活、价格相对可控，却在大模型训练与规模化推理中面临互连效率、资源调度和能效瓶颈。尤其在金融、医疗、制造等场景，企业更看重“上线速度、稳定交付与持续推理成本”，算力“用得起、用得稳、用得快”成为新诉求。（原因）导致上述矛盾的核心，在于应用形态与算力消费方式正在变化。随着智能体等技术推动应用从对话交互走向任务执行，算力需求从“集中训练”加速转向“在线推理”。推理服务强调高并发、低时延和可持续扩展，算力基础设施不再只是“算力工厂”，更像是持续产出Token的“服务工厂”。此外，大模型参数规模与行业数据安全要求叠加，使得不少机构希望在本地或专属环境中部署推理能力，这对设备的机房适配、交付周期、运维门槛提出更高要求。（影响）供给模式若不能及时调整，直接影响行业智能化进程：其一，中小企业与科研团队往往受制于机房条件、工程能力与预算，算力“可及性不足”会拖慢应用落地；其二，分散采购的通用服务器在集群效率上存在天然损耗，推理成本可能随规模扩大而上升——影响商业闭环；其三——算力建设若一味追求“大而全”，容易形成资源闲置与能耗压力，不利于集约化、绿色化的发展导向。（对策），中科曙光发布箱式超节点scaleX40，意在以“适中规模+工程化交付”填补市场空档。据介绍，该设备集成40张GPU，算力约28PFLOPS（FP8），定位介于高端大规模超节点与通用服务器之间，面向训练与推理的综合需求。产品采用无线缆正交架构，通过计算节点与交换节点直接对插，减少传统布线与连接带来的部署与维护复杂度，并将访存带宽提升至80TB/s以上、显著降低互连时延；同时可适配标准19英寸机柜，降低机房改造门槛。据企业提供的对比测试数据，在接近成本水平下，其训练效率较由多台8卡服务器拼装的方案提升明显，推理吞吐提升幅度更为突出，意在把“堆服务器”带来的规模损耗压缩到更低。围绕“算力即服务”的落地需求，企业同步强化全栈协同能力，配套分布式存储、高速网络与管理平台，形成从存储、网络到资源管理与应用适配的交付体系，并对大量主流模型进行预适配优化，降低“到货仍需二次集成”的时间成本。业内观点认为，科研机构与企业用户普遍希望获得“单机般易用”的体验，但又必须面对大模型带来的系统复杂性，工程化的一体交付与自动化管理成为降低门槛的关键环节。（前景）从产业趋势看，算力需求分层将更加清晰：顶级训练仍需要超大规模互连与集群能力；而面向行业应用的主战场，更多在推理侧的稳定供给与成本优化。未来，模型结构逐步趋于稳定，将带动专用芯片与软硬协同优化持续推进；互连协议与生态标准走向统一，有望提升节点扩展与异构协同的灵活性。对设备与平台提供方而言，竞争焦点将从单点性能转向“综合效率”，包括能效、交付周期、运维自动化以及与行业软件的适配能力。以40卡等“中间层”产品为代表的分层供给路径，或将在算力中心“有序、集约、绿色”建设目标下获得更大应用空间，推动普惠算力向更多行业、更多主体延伸。

在数字经济快速发展的今天，算力已成为关键战略资源。scaleX40的推出不仅提供了技术创新，更探索出符合中国产业需求的算力供给方案。这种技术与需求紧密结合的发展模式，对我国人工智能产业很重要。随着更多企业参与创新，中国在全球算力格局中的地位将更提升。