北京大学团队突破机器人空间认知瓶颈智能导航模型赋予机器人"空间大脑"

长期以来，机器人“看得见、走不稳”的问题，阻碍了其从演示走向真实应用；一方面，机器视觉与物体识别发展很快，机器人已能识别茶几、矮凳、门等常见物体；另一方面，当指令包含“右边、后面、两者之间、绕行、上层”等空间关系时，机器人仍容易误解或执行出错，难以完成“到两个沙发中间停下”“绕过餐桌走一圈”等日常任务。空间认知薄弱，使机器人在家庭与公共空间中更易迷路、碰撞障碍，影响安全与效率。造成这个局面的关键在于，过去不少导航方案更偏“语义驱动”：模型擅长把语言与物体名称对齐，却缺少对距离、方位变化、层级结构与环境状态的系统推理能力。在真实环境中，空间关系会随视角而变；同一句“右边”，在不同位置与朝向下含义并不相同；“上层”“角落”还涉及高度与结构。如果只依赖单帧识别或静态地图匹配，机器人难以在移动过程中持续更新判断，也难以同时兼顾准确性与实时性。因此，空间智能被视为服务机器人走向实用的基础能力，也是研发与产业化共同面对的一道门槛。围绕如何衡量与提升空间智能，上述团队提出NavSpace评测基准。该评测面向“空间感”能力设计，包含六大类、超过1200条需要在仿真三维环境中实际完成的导航指令，覆盖垂直感知、精确移动、视角转换、空间关系、环境状态与空间结构等要素。其核心是强调“动态推理”：不仅要求机器人看见物体，还要在运动中持续更新空间关系并据此决策。业内人士认为，统一、可复现的评测体系有助于减少“各自表述”的效果对比，让研发从“能跑起来”走向“可量化、可优化”，为算法迭代与工程落地提供共同标尺。基于该评测基准，团队提出SNav模型，重点构建面向空间智能的自动指令与数据增强管线，可从既有数据中自动生成覆盖多类空间能力的训练样本，提高模型学习空间关系的效率。测试结果显示，SNav在NavSpace基准的多个类别上表现领先；同时，在真实环境验证中，搭载该模型的AgiBotLingxiD1四足机器人完成多类复杂空间指令，体现出从仿真到现实的迁移能力。研究人员介绍，在办公室、校园等场景中，机器人能够理解并执行“去矮凳”“去二楼最近的沙发旁”等指令，成功率较以往方案明显提升。这一进展首先体现在服务机器人应用边界的拓展。家庭场景中，若机器人能稳定理解“沿墙根走”“绕开桌角”“去衣柜左侧第三个抽屉”等描述，可明显提升清洁、取放、递送等任务的可用性，减少卡困与误碰。养老陪护领域，持续感知空间与环境状态，有助于到达指定位置、避障与安全跟随，降低意外风险。酒店、商场等公共服务场景中，导引与配送往往需要到达更细粒度的位置，如“扶梯后第二个柜台”或“房间内靠窗角落”，空间理解能力增强有望减少人工干预与重复调度。工业与物流环节里，对“货架最上层靠左位置”等指令的准确执行，将更提升仓储拣选与搬运效率。从对策看，推动空间智能走向规模化应用，仍需技术与工程合力推进：一是持续完善评测标准与数据覆盖，增强对多楼层、复杂动态人群、光照变化等真实条件的代表性；二是强化“从仿真到现实”的迁移与安全机制，在不确定环境下提升鲁棒性与容错能力；三是面向产业端优化算力与成本，兼顾实时运行与能耗约束；四是结合具体应用共同定义指令体系与交互规范，减少歧义，提高人机沟通效率。只有把模型能力、系统集成与场景运营打通，才能实现从实验室成果到产品能力的转化落地。展望未来，随着空间智能评测体系逐步成熟、训练方法与传感器融合持续推进，机器人有望从“理解物体”进一步迈向“理解空间与任务”，在更多日常与生产环节承担重复、危险或高频的服务工作。业内预计，具备更强空间推理能力的服务机器人将加速进入家庭、养老、商业与物流等领域，但其广泛普及仍取决于可靠性、安全性与成本控制的综合突破。

这项源自中国实验室的空间认知技术进展，不仅有望缓解行业长期面临的“指令理解难”问题，也预示人机协作正迈向更自然的交互方式。当机器人开始真正理解人类的空间语言，“生活助手”将更接近现实。在这股智能化浪潮中，中国科研团队再次表现出在关键技术攻关上的持续投入与创新能力。（完）

北京大学团队突破机器人空间认知瓶颈 智能导航模型赋予机器人"空间大脑"

北京大学团队突破机器人空间认知瓶颈智能导航模型赋予机器人"空间大脑"