从自动驾驶到具身机器人,隋伟博士把ai 芯片的驱动作用给咱们揭开了,看看智能技术是怎么跃迁的。现在

从自动驾驶到具身机器人,隋伟博士把AI芯片的驱动作用给咱们揭开了,看看智能技术是怎么跃迁的。现在AI发展这么快,具身智能和自动驾驶都在大换血。前段时间《机器人新纪元》播客第一期就请了地瓜机器人算法副总裁隋伟,他聊了聊这俩领域咋一步步走过来的。这帮人搞这个节目就是看出来现在大家爱看视频听音频,技术内容也得跟着换个活法。 隋伟是跨领域的人才,博士那会搞机械臂,全靠模块化技术,3D视觉盯着物体的位置形状,然后指挥机械臂去抓。这种办法在2021到2022年还是工厂里的大头。后来他2019年进了地平线公司,就去搞自动驾驶了,刚好赶上行业从L2往L3过渡的节骨眼上。当时团队重点就是把单目摄像头升级成环视摄像头,做深度估计和3D检测算法,这些都是后来BEV技术的底子。 隋伟说了,这两个领域其实挺像的,都得搞清楚自己在哪、要去哪、咋避开障碍物。但具身智能的路更难走:硬件长得五花八门,弄数据成本老高;现有的模型也不够细,既要管上游的采集,又要管下游的控制。为了满足这需求,专用芯片就出来了。地瓜出的旭日S600和英伟达的Jetson系列就开始抢生意了。 说到BEV感知技术,那可是个大突破。这东西最早是从3D重建那搞来的,2019到2020年特斯拉FSD一出来就炸锅了。以前是多视角的图拼一起变3D,但路上高低不平、视角不好拼的问题一直解决不了。BEV直接从图像里抠出3D空间结果,连后处理都省了,还特别适合端到端训练。为了配合这技术,地平线弄了个4D标注系统,里面存了200万视频片段,每个片段都录着11个摄像头在45到60秒里的时空数据。 关于端到端技术咋发展的,隋伟还总结了个三阶段理论。刚开始直接拿视觉传感器拍下来就给指令,对付不了太复杂的场面;后来加了视觉语言模型(VLM)帮着推理常识,但两个系统不太好配合;现在主流的VLA架构是一体化训练的两段式端到端其实还是个过渡阶段。这跟大模型训练路子太像了,预训练要海量数据、监督微调要高质量样本、强化学习要靠互动反馈提分。 在工业场景里,机器人长什么样也快定下了。轮子底盘配个反弓腰还有七自由度双臂的组合最受欢迎。工厂里更看重能不能稳当干活而不是跑得有多快,轮子稍微改改就能搞定大部分活儿。全人形虽然能翻山越岭,但双足走路那点技术还没过关呢。 最近那些跳舞机器人火得很。隋伟觉得这不仅仅是炫技或者秀肌肉,背后藏着商机。就像无人机编队表演市场已经验证过了一样,机器人排排队变着花样跳完全能一直吸粉。不过想赚钱也得一步步来:先把硬件弄成标准货还得能一直用;再在特定地方凑够一百万台;最后才能去消费市场捞金。这条路跟卖汽车的路子差不多都要过三关:先验证技术靠谱、再深扎根场景、最后才能让大家都用得上。