“白虎-vtouch”数据集亮相上海

咱们国家刚刚公布了个大消息，发布了全球最大的那个视触觉机器人数据集，一下子就把具身智能给推到了一个新高度。虽然全球AI跟机器人技术融合得挺热闹，但咱们这边搞出来的东西才是关键。最近，在上海这地界儿，国家地方共建的人形机器人创新中心还有上海纬钛科技有限公司一块合作搞了个“白虎-VTouch”视触觉多模态机器人操作数据集，就在这正式亮相了。这玩意儿现在是全球规模最大、任务结构也最系统化的数据集。有了它，咱们国家在解决机器人感知和操控能不能协调的问题上，算是迈出了一大步。这下子，具身智能就能不光光知道环境是啥样，还能和环境玩得更细腻。以前搞具身智能都太依赖眼睛看了，好多需要摸一摸才知道怎么办的情况就会搞不定。比如在黑灯瞎火的地方干活、捡易碎的东西、弄软乎乎的东西这些，光靠看就不行。就跟咱们人类一样，眼睛和手得一起用才行。这个“白虎-VTouch”最大的本事就是把视觉和触觉的数据整合到了一起，把那些真实世界里的逻辑给摸透了。它用的是那种矩阵式的采集方法，不仅快而且数据结构有条理。里面不光有带深度信息的彩色图和机器人怎么动的路线图，还有用自家传感器记录下来的摸上去软的、硬的、滑动时的压力和形变这些数据。现在这个数据集已经有6万多分钟的时长了，里面包含了将近9072万对这种视触觉的图片和视频。这些资料里面的任务可不少，像抓、插、转、放这一百多种基本操作都有涉及，而且还涉及了五百多种日常生活或者工业里常见的东西。最关键的是它特别接地气，专门盯着家居家务、工业制造、餐饮服务和特种作业这些地方的需求去做的。不管是在轮子上跑的机器人还是两条腿走路的机器人甚至是人手拿着的终端设备，研究人员已经把380多种任务类型都给试了一遍，差不多覆盖了90%的日常生活和典型的工业操作需求。这种以真实场景为中心、按任务来组织数据的方式让这套东西特别好上手，也为机器人在乱七八糟的环境里稳稳当当地干活打下了基础。技术上它想走的路子是先把“感知—决策—控制”这套闭环给练出来。通过海量的真实交互数据来预先训练一个具身基础模型，让它在碰到复杂任务的时候能自己搞出点新花样来。这也是现在的智能系统特别看重的东西，就是让系统更有劲儿去解决那些不常见但却很关键的问题。从产业的角度看，把这么高质量的数据集开放出来共享肯定是好事儿。这能把搞研发的门槛给拉下来点，让学术界和产业界的人能更好地合作。咱们国家已经把人形机器人和具身智能当成未来的重点产业来搞了。这种基础平台建起来了，不光能养出自家的技术生态，还能给智能制造、家政服务、医疗康复这些领域的机器人应用提提速。 “白虎-VTouch”数据集的发布算是咱们在具身智能这块儿的一个大里程碑了。它不光补上了全球在多模态数据这块儿的空白，也显示了咱们科研团队那种从实际需求出发、专门攻克难题的踏实劲儿。以后这个数据集开放了还会继续更新升级，肯定会吸引更多国内外的团队跟着一块儿搞研究。这样就能把机器人从实验室里带出来，走进千家万户、工厂车间里去。未来咱们还得继续琢磨怎么让感知更融合、行为更聪明、伦理也更规范这些事。这就是咱们以后在全球智能机器人这一块儿保持领先的关键所在了。