宇树科技创始人王兴兴：机器人能把任务完成得特别好，可一到外面复杂环境里，稍微有点变化就不行了

最近，宇树科技创始人王兴兴在某行业论坛年会上聊了聊具身智能怎么突破那个泛化瓶颈的问题。他觉得现在这技术虽然有不少进步，但想搞出ChatGPT那种颠覆性的东西，还得跨好多坎。眼下最大的难处，就是机器人在实验室里能把任务完成得特别好，可一到外面的复杂环境里，稍微有点变化就不行了。这就让机器人没法顺利从实验室走到实际的商业应用中去。为了解决这问题，他提到了几个攻关方向：把模型架构优化一下，好让它能更准确地听懂运动指令；在现有的有限数据里挖出更多价值，提高利用率；还有就是扩大强化学习的规模，把算法的潜能给释放出来。在技术路线上，他特别看好那种先通过视频生成来构建世界模型的方案。这法子模仿人的思维，先让AI脑补出执行任务的高质量视频，再把这些画面跟机械动作对上号。这种“先想后干”的路子被觉得挺像生物智能干活的样子，能帮机器人更好地理解复杂的活儿。他还提到了字节跳动刚出的Seedance2.0技术。他觉得高保真的视频生成能力是搞这套方案的前提。不过大家都卡在了怎么让虚拟画面和机械动作同步得非常精准这个点上。这个技术门槛要是迈不过去，机器人就没法把脑子里的想法变成现实动作。目前还没什么特别好的解决办法。王兴兴说他们团队正在顺着这个方向使劲研究呢。他打算通过多模态融合技术来缩小虚拟和现实之间的差距。他估摸着等视频生成的精度和动作控制的精度差不多了，机器人就有了跨场景的通用能力了。这可能就是具身智能新纪元的开始吧。不过他也说了，要做到这一步估计还得磨上好几年呢。