问题——长期以来,计算机视觉领域形成了“网络越深、性能越强”的惯性路径。以残差网络、密集连接网络等为代表的深层结构,在多个基准任务上不断刷新成绩,推动了视觉识别技术发展。但当网络层数增加到数十甚至数百层时,推理延迟、能耗和部署成本也随之上升,尤其在边缘设备、实时应用和算力受限场景中,这些工程代价更为突出。如何在尽量不降低精度的前提下减少深度与复杂度,成为产业界与学术界共同面对的关键问题。 原因——该联合团队的思路,是将“信息表达能力”从单纯依赖深度的串行堆叠,转向更强调结构组织与特征流动效率。研究提出的ParNet采用“并行流”架构:将特征提取拆分为多条并行子网,每条子网在不同分辨率下独立学习表征,最终再统一融合。相比传统“逐层下采样、单路推进”的方式,这种“先分后合”的多尺度策略,使浅层网络也能同时保留细粒度纹理与高层语义信息,从而降低对极深堆叠的依赖。 在模块设计上,团队对RepVGG类结构进行改造,引入Skip-Squeeze-Excitation机制,在保持计算友好特性的同时增强通道信息选择能力;同时通过下采样阶段的宽度调整与分辨率压缩,主动构造多尺度特征来源;在融合阶段,将不同分辨率分支的特征进行拼接与整合,使信息在较少层数内完成跨尺度交互。其核心在于:用并行与融合扩大特征覆盖、提高表达密度,以更高的结构效率弥补深度减少可能带来的性能损失。 影响——从公开实验结果看,ParNet在多个数据集上表现出较强竞争力:在ImageNet分类任务上实现Top-1准确率80.7%;在CIFAR10与CIFAR100上分别达到96%与81%;在MS-COCO目标检测任务中取得约48%的平均精度。这些结果表明,在长期由深层网络占优的视觉基准上,浅层但结构优化的网络已具备与深层模型竞争的能力。更重要的是,该方向为工业部署提供了新的取舍:在精度相同或接近的情况下,更少的层数与更清晰的并行结构有望带来更好的吞吐、时延与能效表现,从而提升在移动端、车载、安防与工业视觉等场景的落地可行性。 对策——业内人士认为,要将此类结构创新转化为可规模化的生产力,还需要算法、编译与硬件共同推进:一是继续明确并行分支数量、分辨率配置与融合策略对精度和速度的影响边界,沉淀可复用的设计范式;二是围绕并行计算与特征融合的算子组合优化编译链路,减少内存搬运与同步开销,避免出现“结构并行、执行串行”;三是加强软硬件协同,面向多核、多芯片与异构计算环境进行映射优化,让并行流结构的优势在实际部署中充分体现。 前景——研究团队指出,并行流结构天然适配分布式与多芯片计算形态。随着算力基础设施向多芯片协同演进,如果模型在设计阶段就兼顾并行执行与多分辨率特征的高效融合,将更容易在未来硬件平台上获得速度与能耗优势。可以预期,视觉模型发展将从单一追求“更深”转向“更合理”:在相同算力预算下提升结构表达,在相同精度门槛下降低时延与能耗,并以可部署性与可维护性提升实际价值。
这项研究挑战了“越深越强”的传统认知,也提示人工智能计算模式正在发生变化。当“深度竞赛”逐步接近上限,通过架构创新实现“轻量化与高性能兼顾”可能成为新的突破方向。在算力资源趋紧的背景下,此类研究有助于提升人工智能的普及与应用效率,也为半导体与计算平台的演进提供了新的思路。