从自动驾驶到具身机器人，隋伟博士把ai 芯片的驱动作用给咱们揭开了，看看智能技术是怎么跃迁的。现在

从自动驾驶到具身机器人，隋伟博士把AI芯片的驱动作用给咱们揭开了，看看智能技术是怎么跃迁的。现在AI发展这么快，具身智能和自动驾驶都在大换血。前段时间《机器人新纪元》播客第一期就请了地瓜机器人算法副总裁隋伟，他聊了聊这俩领域咋一步步走过来的。这帮人搞这个节目就是看出来现在大家爱看视频听音频，技术内容也得跟着换个活法。隋伟是跨领域的人才，博士那会搞机械臂，全靠模块化技术，3D视觉盯着物体的位置形状，然后指挥机械臂去抓。这种办法在2021到2022年还是工厂里的大头。后来他2019年进了地平线公司，就去搞自动驾驶了，刚好赶上行业从L2往L3过渡的节骨眼上。当时团队重点就是把单目摄像头升级成环视摄像头，做深度估计和3D检测算法，这些都是后来BEV技术的底子。隋伟说了，这两个领域其实挺像的，都得搞清楚自己在哪、要去哪、咋避开障碍物。但具身智能的路更难走：硬件长得五花八门，弄数据成本老高；现有的模型也不够细，既要管上游的采集，又要管下游的控制。为了满足这需求，专用芯片就出来了。地瓜出的旭日S600和英伟达的Jetson系列就开始抢生意了。说到BEV感知技术，那可是个大突破。这东西最早是从3D重建那搞来的，2019到2020年特斯拉FSD一出来就炸锅了。以前是多视角的图拼一起变3D，但路上高低不平、视角不好拼的问题一直解决不了。BEV直接从图像里抠出3D空间结果，连后处理都省了，还特别适合端到端训练。为了配合这技术，地平线弄了个4D标注系统，里面存了200万视频片段，每个片段都录着11个摄像头在45到60秒里的时空数据。关于端到端技术咋发展的，隋伟还总结了个三阶段理论。刚开始直接拿视觉传感器拍下来就给指令，对付不了太复杂的场面；后来加了视觉语言模型（VLM）帮着推理常识，但两个系统不太好配合；现在主流的VLA架构是一体化训练的两段式端到端其实还是个过渡阶段。这跟大模型训练路子太像了，预训练要海量数据、监督微调要高质量样本、强化学习要靠互动反馈提分。在工业场景里，机器人长什么样也快定下了。轮子底盘配个反弓腰还有七自由度双臂的组合最受欢迎。工厂里更看重能不能稳当干活而不是跑得有多快，轮子稍微改改就能搞定大部分活儿。全人形虽然能翻山越岭，但双足走路那点技术还没过关呢。最近那些跳舞机器人火得很。隋伟觉得这不仅仅是炫技或者秀肌肉，背后藏着商机。就像无人机编队表演市场已经验证过了一样，机器人排排队变着花样跳完全能一直吸粉。不过想赚钱也得一步步来：先把硬件弄成标准货还得能一直用；再在特定地方凑够一百万台；最后才能去消费市场捞金。这条路跟卖汽车的路子差不多都要过三关：先验证技术靠谱、再深扎根场景、最后才能让大家都用得上。