美高校与企业联合发布超大规模视频关系数据集与模型推动机器“读懂”复杂动态场景

当人类观看视频时，大脑能够自动识别画面中的各类物体、理解它们之间的相互关系，并准确把握动态变化；然而，让计算机具备这种认知能力一直是人工智能领域的核心难题。国际科研团队最近发表的研究成果表明，该瓶颈正被逐步突破。问题的症结在于现有视频理解系统的局限性。传统的计算机视觉技术虽然能够识别单个物体，但在理解物体间的复杂时空关系上存在明显不足。这就像一个人能够认识房间里的每件家具，却无法理解"椅子在桌子旁边"或"灯在桌子上方"这样的空间关系。更为复杂的是，视频中的关系会随时间动态变化，物体的位置、状态和相互作用在不断演变，这对计算机的理解能力提出了更高要求。为了解决这一难题，研究团队采取了系统性的技术方案。首先，他们构建了一个前所未有规模的训练数据集，命名为"合成视觉基因组2"。该数据集包含超过63万个视频，涵盖660万个物体、5200万个属性描述和670万个关系标注，规模相比同类数据集提升了整整一个数量级。这样的数据规模为深度学习模型提供了充分的训练基础。数据集的构建采用了创新的全自动化标注流程，分为三个关键阶段。第一阶段进行物体追踪，采用"在线-离线"双重机制确保同一物体在不同视频帧中的身份一致性。在线追踪实时监控物体运动，离线追踪则对整个视频进行事后质检，两者结合使平均召回率达到60%以上。第二阶段进行物体描述，系统为每个物体的运动轨迹选择最清晰的8个关键帧，生成详细的文字描述，并提取物体名称和属性信息。第三阶段进行关系推理，系统需要分析物体间的七大类关系，包括空间关系、运动关系、功能关系、状态关系、社交关系、注意关系和事件关系。为了避免空间关系掩盖其他关系类型，研究团队采用了分批处理策略，分别为空间关系和非空间关系设计专门的提示模板。对于空间关系，系统被特别要求忽略显而易见的二维位置关系，而专注于需要三维空间推理的复杂关系。这种精细化的处理方式使AI系统能够更全面地捕捉各种关系类型。这项技术突破具有重要的应用前景。在自动驾驶领域，更精准的视频理解能力可以帮助车辆更好地识别道路场景中的复杂交互关系。在视频内容分析、机器人导航、增强现实等领域，这项技术都有广泛的应用潜力。同时，这项研究也为多模态人工智能的发展提供了新的思路和方法论。

这项研究推动机器从“看见物体”走向“理解关系与变化”；正如项目组科学家所说：“让机器真正理解动态世界的内在逻辑，比单纯教会它们识别物体更具革命性意义。”随着技术继续迭代，能够读懂复杂场景的智能系统或将深入改变人机协作方式，并为数字化应用拓展新的空间。

美高校与企业联合发布超大规模视频关系数据集与模型 推动机器“读懂”复杂动态场景

美高校与企业联合发布超大规模视频关系数据集与模型推动机器“读懂”复杂动态场景