普林斯顿与英特尔团队提出ParNet：以并行多分辨率结构突破“越深越强”路径依赖

问题——长期以来，计算机视觉领域形成了“网络越深、性能越强”的惯性路径。以残差网络、密集连接网络等为代表的深层结构，在多个基准任务上不断刷新成绩，推动了视觉识别技术发展。但当网络层数增加到数十甚至数百层时，推理延迟、能耗和部署成本也随之上升，尤其在边缘设备、实时应用和算力受限场景中，这些工程代价更为突出。如何在尽量不降低精度的前提下减少深度与复杂度，成为产业界与学术界共同面对的关键问题。原因——该联合团队的思路，是将“信息表达能力”从单纯依赖深度的串行堆叠，转向更强调结构组织与特征流动效率。研究提出的ParNet采用“并行流”架构：将特征提取拆分为多条并行子网，每条子网在不同分辨率下独立学习表征，最终再统一融合。相比传统“逐层下采样、单路推进”的方式，这种“先分后合”的多尺度策略，使浅层网络也能同时保留细粒度纹理与高层语义信息，从而降低对极深堆叠的依赖。在模块设计上，团队对RepVGG类结构进行改造，引入Skip-Squeeze-Excitation机制，在保持计算友好特性的同时增强通道信息选择能力；同时通过下采样阶段的宽度调整与分辨率压缩，主动构造多尺度特征来源；在融合阶段，将不同分辨率分支的特征进行拼接与整合，使信息在较少层数内完成跨尺度交互。其核心在于：用并行与融合扩大特征覆盖、提高表达密度，以更高的结构效率弥补深度减少可能带来的性能损失。影响——从公开实验结果看，ParNet在多个数据集上表现出较强竞争力：在ImageNet分类任务上实现Top-1准确率80.7%；在CIFAR10与CIFAR100上分别达到96%与81%；在MS-COCO目标检测任务中取得约48%的平均精度。这些结果表明，在长期由深层网络占优的视觉基准上，浅层但结构优化的网络已具备与深层模型竞争的能力。更重要的是，该方向为工业部署提供了新的取舍：在精度相同或接近的情况下，更少的层数与更清晰的并行结构有望带来更好的吞吐、时延与能效表现，从而提升在移动端、车载、安防与工业视觉等场景的落地可行性。对策——业内人士认为，要将此类结构创新转化为可规模化的生产力，还需要算法、编译与硬件共同推进：一是继续明确并行分支数量、分辨率配置与融合策略对精度和速度的影响边界，沉淀可复用的设计范式；二是围绕并行计算与特征融合的算子组合优化编译链路，减少内存搬运与同步开销，避免出现“结构并行、执行串行”；三是加强软硬件协同，面向多核、多芯片与异构计算环境进行映射优化，让并行流结构的优势在实际部署中充分体现。前景——研究团队指出，并行流结构天然适配分布式与多芯片计算形态。随着算力基础设施向多芯片协同演进，如果模型在设计阶段就兼顾并行执行与多分辨率特征的高效融合，将更容易在未来硬件平台上获得速度与能耗优势。可以预期，视觉模型发展将从单一追求“更深”转向“更合理”：在相同算力预算下提升结构表达，在相同精度门槛下降低时延与能耗，并以可部署性与可维护性提升实际价值。

这项研究挑战了“越深越强”的传统认知，也提示人工智能计算模式正在发生变化。当“深度竞赛”逐步接近上限，通过架构创新实现“轻量化与高性能兼顾”可能成为新的突破方向。在算力资源趋紧的背景下，此类研究有助于提升人工智能的普及与应用效率，也为半导体与计算平台的演进提供了新的思路。