我国科研团队突破无提示物体识别技术实现跨领域智能检测新跨越

问题—— 工业产线缺陷检测、海洋科考、水下搜救、遥感巡查等任务中，图像来源多样、目标类型变化快，且标注成本高。传统视觉识别流程多采用“先定义再检测”：要么预先指定要找的类别，要么提供同类样本作为提示，系统才能定位并识别。但在不少真实场景里，目标可能是未知类别或临时变化，甚至拿不到可用样本和标签，这让“无提示、全覆盖”的目标发现能力成为视觉技术走向工程应用的关键。原因—— 研究团队指出，“无提示”目标发现之所以难，主要有三点：一是图像信息密度高，若对整幅图做均匀、穷举式计算，资源开销会迅速攀升；二是目标常伴随遮挡、尺度差异和背景干扰，初次筛选容易漏掉关键区域；三是候选点缺少有效约束时，误检和框偏移更容易出现，小目标尤为明显。为应对这些问题，团队构建PF-RPN系统，核心思路是用更少的计算抓住更有效的信息，并通过多轮自校正提升覆盖率和定位稳定性。影响—— 据介绍，PF-RPN通过三项机制协同实现全图目标发现：其一，稀疏图像感知适配器对特征进行多尺度表征，并引入“专家混合”分工处理关键信息，通过动态路由保留最有效的少量通道，在减少冗余计算的同时抑制噪声；其二，级联自提示模块对初筛结果进行多轮迭代补全，先用语义信息确定大致区域，再结合细节特征修正边界与遮挡缺口，并用相似度掩膜反复筛查，提高对“半显性目标”的捕获能力；其三，中心性引导查询选择加入轻量评分，衡量候选点与目标几何中心的匹配程度，并与分类置信度融合，优先检查更可能包含完整目标的区域，从而降低误检与定位误差。在跨域评测上，团队19类差异明显的数据集上验证该系统，覆盖水下生物、工业缺陷、遥感目标与日常物体等。结果显示，在CD-FSOD基准测试中，给定100个候选框时召回率达60.7%，较对比方法提升7.8个百分点；在300个、900个候选框设置下，召回率提升幅度分别为11.8和13.5个百分点。在ODinW13多域测试中，平均召回率为76.5%，小目标召回率为45.4%。资源效率上，系统在测试条件下约可达到4.6帧/秒，显存占用约0.5GB，降低了工程部署的算力与显存门槛。研究还表明，稀疏感知阶段保留少量关键通道可明显压缩开销；多轮自提示以三次迭代在效果与速度间取得较好平衡，继续增加轮次的收益逐渐变小。对策—— 面向应用落地，研究团队提出“先通用发现、再少量适配”的路径：在工业质检中，系统可在不预设产品类别的情况下先发现可疑区域，再用少量产线数据做轻量调优，以适应换线与多品类生产；在水下探索与深海科考中，面对样本稀缺、目标未知的情况，先进行全图候选发现，可减少后续人工标注与筛查压力；在遥感巡查中，可在同一框架下对船只、油气设施、火点等多类目标生成候选区域，减少以往多模型并行训练与维护成本。此外，团队也展示了该系统可与部分既有视觉框架组合集成，在通用数据集上继续提升性能，为存量系统升级提供思路。前景—— 业内人士认为，开放世界视觉感知正在从“识别已知”走向“发现未知”。若无提示目标发现能力持续成熟，将在城市安全、灾害应急、生态监测与智能制造等领域带来更大价值。同时也需要看到，复杂环境下的鲁棒性、极小目标与密集目标的处理能力，以及与后续分类识别模块的协同效率，仍是后续攻关重点。下一步研究可围绕更广的数据分布、更严格的实时约束和可验证的工程指标开展系统评估，推动从实验结果走向规模化应用。

从“需要提示才能识别”到“无提示也能发现”——既是算法能力的提升——也是技术走向复杂真实场景的重要一步；对于工业制造、海洋科考与遥感监测等领域，减少对数据和先验的依赖、提升跨域适配效率，将直接影响智能化改造的成本与进度。只有让基础研究与工程验证相互促进，并以真实需求牵引关键技术突破，智能视觉才能在更多场景中实现稳定、可靠、可持续的落地应用。

我国科研团队突破无提示物体识别技术 实现跨领域智能检测新跨越

我国科研团队突破无提示物体识别技术实现跨领域智能检测新跨越