理想汽车在NVIDIA GTC发布MindVLA-o1:以视觉语言行动一体化推动自动驾驶迈向三维世界理解

自动驾驶技术发展正面临关键挑战。传统基于规则的系统受限于高精地图覆盖不足和长尾场景难以覆盖;而依赖大量驾驶数据的端到端模型虽然在初期表现良好,但随着数据规模扩大,性能提升逐渐放缓。理想汽车研发团队发现,当训练数据量达到1000万条片段时,模型接管里程的提升幅度仅为预期的三分之一。这表明单纯依赖数据驱动的方法存在根本局限——缺乏对物理世界的因果理解。

自动驾驶的核心不仅是"让车移动",更是要让系统具备持续的风险识别、预测和决策能力。MindVLA-o1代表的技术方向,反映了行业对"三维世界理解"和"推理驱动安全"的重视。能否将模型能力转化为稳定、可验证、可复制的工程成果,将决定下一代智能驾驶从概念走向实际应用的速度和范围。