我国科研团队在具身智能领域取得突破性进展 两篇论文入选国际顶会CVPR

问题:随着机器人从实验室走向真实场景,如何在复杂多变的环境中持续学习并稳定执行任务,成为落地的关键瓶颈。现有视觉语言模型在识别与常识推理上已有进展,但对空间关系、遮挡结构、操作顺序等物理逻辑理解不足,进而影响机器人的安全性与可靠性。 原因:物理世界受强空间约束和物理规律影响,任务需要多模态感知、语义理解与动作执行形成闭环协同。传统方法多停留在单次训练或静态数据上,缺少覆盖数据采集、模型训练到部署更新的完整链路;同时,现有评测体系难以系统衡量模型的空间逻辑推理能力,导致问题定位不清、优化方向不明确。 影响:群核科技与浙江大学、宇树科技联合提出Arcadia框架,面向具身智能构建全生命周期学习闭环,覆盖数据收集、模型训练以及部署后的自我进化与知识更新。该框架利用空间重建与生成能力,通过多模态数据的结构化解析、三维场景自动生成与物理一致性模拟,构建可规模化扩展的训练场景。实测显示,在宇树G1人形机器人的零样本测试中,导航与操作任务表现明显提升,在复杂场景下优势更突出,表明持续学习机制有助于能力迁移与稳定泛化。 对策:另一篇入选论文SpatiaLQA提出空间逻辑推理基准,系统定义空间关系、遮挡、相对位置与操作约束等评测维度,并给出可量化指标,为视觉语言模型的空间能力提供统一评测标准。该基准结合群核科技空间理解模型的技术支撑,补齐行业在空间推理评估上的缺口,帮助模型在真实场景中更有针对性地迭代优化。 前景:两项成果分别从“如何持续学习”和“如何评测空间理解”两端切入,指向同一趋势:空间智能将成为智能体走出数字世界、进入物理场景的关键能力。随着机器人在制造、物流、家庭服务等领域加速应用,建立可持续学习机制与标准化评测体系,有望提升行业整体的安全性、通用性与可迁移性,推动具身智能进入规模化落地阶段。

从感知到认知、从数字到物理,人工智能正在进入新的跃迁阶段。空间智能作为连接虚拟与现实的关键能力,其作用愈发凸显。当机器人不仅能“看见”,还能理解空间逻辑并在部署后持续进化,具身智能才能真正走出实验室,在工业制造、家庭服务、医疗康复等场景中稳定创造价值。这仍需要学术界与产业界持续协同,在基础理论、技术框架与应用验证上共同推进,推动人工智能迈向更高水平的发展。