我国科研团队突破无提示物体识别技术 实现跨领域智能检测新跨越

问题—— 工业产线缺陷检测、海洋科考、水下搜救、遥感巡查等任务中,图像来源多样、目标类型变化快,且标注成本高。传统视觉识别流程多采用“先定义再检测”:要么预先指定要找的类别,要么提供同类样本作为提示,系统才能定位并识别。但在不少真实场景里,目标可能是未知类别或临时变化,甚至拿不到可用样本和标签,这让“无提示、全覆盖”的目标发现能力成为视觉技术走向工程应用的关键。 原因—— 研究团队指出,“无提示”目标发现之所以难,主要有三点:一是图像信息密度高,若对整幅图做均匀、穷举式计算,资源开销会迅速攀升;二是目标常伴随遮挡、尺度差异和背景干扰,初次筛选容易漏掉关键区域;三是候选点缺少有效约束时,误检和框偏移更容易出现,小目标尤为明显。为应对这些问题,团队构建PF-RPN系统,核心思路是用更少的计算抓住更有效的信息,并通过多轮自校正提升覆盖率和定位稳定性。 影响—— 据介绍,PF-RPN通过三项机制协同实现全图目标发现:其一,稀疏图像感知适配器对特征进行多尺度表征,并引入“专家混合”分工处理关键信息,通过动态路由保留最有效的少量通道,在减少冗余计算的同时抑制噪声;其二,级联自提示模块对初筛结果进行多轮迭代补全,先用语义信息确定大致区域,再结合细节特征修正边界与遮挡缺口,并用相似度掩膜反复筛查,提高对“半显性目标”的捕获能力;其三,中心性引导查询选择加入轻量评分,衡量候选点与目标几何中心的匹配程度,并与分类置信度融合,优先检查更可能包含完整目标的区域,从而降低误检与定位误差。 在跨域评测上,团队19类差异明显的数据集上验证该系统,覆盖水下生物、工业缺陷、遥感目标与日常物体等。结果显示,在CD-FSOD基准测试中,给定100个候选框时召回率达60.7%,较对比方法提升7.8个百分点;在300个、900个候选框设置下,召回率提升幅度分别为11.8和13.5个百分点。在ODinW13多域测试中,平均召回率为76.5%,小目标召回率为45.4%。资源效率上,系统在测试条件下约可达到4.6帧/秒,显存占用约0.5GB,降低了工程部署的算力与显存门槛。研究还表明,稀疏感知阶段保留少量关键通道可明显压缩开销;多轮自提示以三次迭代在效果与速度间取得较好平衡,继续增加轮次的收益逐渐变小。 对策—— 面向应用落地,研究团队提出“先通用发现、再少量适配”的路径:在工业质检中,系统可在不预设产品类别的情况下先发现可疑区域,再用少量产线数据做轻量调优,以适应换线与多品类生产;在水下探索与深海科考中,面对样本稀缺、目标未知的情况,先进行全图候选发现,可减少后续人工标注与筛查压力;在遥感巡查中,可在同一框架下对船只、油气设施、火点等多类目标生成候选区域,减少以往多模型并行训练与维护成本。此外,团队也展示了该系统可与部分既有视觉框架组合集成,在通用数据集上继续提升性能,为存量系统升级提供思路。 前景—— 业内人士认为,开放世界视觉感知正在从“识别已知”走向“发现未知”。若无提示目标发现能力持续成熟,将在城市安全、灾害应急、生态监测与智能制造等领域带来更大价值。同时也需要看到,复杂环境下的鲁棒性、极小目标与密集目标的处理能力,以及与后续分类识别模块的协同效率,仍是后续攻关重点。下一步研究可围绕更广的数据分布、更严格的实时约束和可验证的工程指标开展系统评估,推动从实验结果走向规模化应用。

从“需要提示才能识别”到“无提示也能发现”——既是算法能力的提升——也是技术走向复杂真实场景的重要一步;对于工业制造、海洋科考与遥感监测等领域,减少对数据和先验的依赖、提升跨域适配效率,将直接影响智能化改造的成本与进度。只有让基础研究与工程验证相互促进,并以真实需求牵引关键技术突破,智能视觉才能在更多场景中实现稳定、可靠、可持续的落地应用。