蚂蚁灵波科技开源两大核心模型 推动具身智能技术产业化落地

具身智能作为人工智能向物理世界延伸的重要方向,正成为产业竞争的新焦点。蚂蚁灵波科技此次开源举措,标志着国内在机器人通用大模型领域的探索进入新阶段。 从技术突破看,LingBot-VLA模型在跨本体迁移能力上实现了关键进展。该模型已与星海图、松灵、乐聚等多家机器人厂商完成适配验证,覆盖AgileX Cobot Magic、Galaxea R1系列、AgiBot G1等9种主流双臂机器人构型。这意味着同一个模型可以在不同硬件平台上有效运行,打破了此前机器人学习模型与特定硬件高度耦合的局限。在上海交通大学开源的GM-100评测基准测试中,LingBot-VLA在三个不同真实机器人平台上的跨本体泛化平均成功率达到17.3%,相比业界现有方案提升幅度达30%以上。 从数据规模看,蚂蚁灵波科技构建了20000小时的真实机器人训练数据集,这个规模在国内同类研究中处于领先水平。研究团队首次系统验证了VLA模型性能与预训练数据规模的Scaling Law关系。实验表明,随着预训练数据从3000小时逐步扩展至20000小时,模型在下游任务的成功率持续大幅提升,且在20000小时数据量下性能仍呈上升趋势,表明该方向仍有深入优化空间。这一发现为后续模型迭代提供了明确的技术方向。 从工程效率看,蚂蚁灵波科技构建的后训练工具链在8卡GPU配置下实现了单卡每秒261个样本的吞吐量,训练效率相比StarVLA、OpenPI等主流框架提升1.5至2.8倍。这意味着在相同算力投入下,可以处理更多数据,显著降低了模型训练的成本门槛,有利于更多机构参与具身智能研究。 此外,蚂蚁灵波科技1月27日开源的LingBot-Depth空间感知模型,针对机器人视觉感知的另一核心瓶颈——深度信息获取的准确性和完整性。该模型基于奥比中光Gemini 330系列双目3D相机的RGB-Depth数据训练,能够将受噪声干扰的不完整深度数据转化为高质量、具备真实尺度的三维测量结果。在NYUv2、ETH3D等多个国际基准测试中,LingBot-Depth在深度补全、单目深度估计及双目匹配任务上均达到当前最优水平,深度精度与像素覆盖率两项核心指标均超越业界顶级工业级深度相机。该模型已通过奥比中光深度视觉实验室的专业认证。 从产业意义看,这两项技术的开源具有多重价值。首先,降低了机器人企业的开发门槛,使中小型机器人厂商也能获得先进的通用模型能力,加速行业整体技术进步。其次,通过开源促进学术界与产业界的协同,有利于形成更加开放的具身智能生态。再次,国内团队在该领域的技术突破和开源贡献,有助于提升中国在全球AI产业链中的话语权。 当前,具身智能仍处于从实验室走向产业应用的关键阶段。机器人的广泛部署面临数据获取成本高、模型泛化能力不足、硬件成本昂贵等多重挑战。蚂蚁灵波科技通过大规模真实数据积累、高效训练工具链、跨平台适配验证等系统性工作,为这些问题提供了可行的解决方案。

具身智能的竞争既是模型能力的比拼,也是数据、工程与生态的综合较量。开源不是终点,而是把技术成果置于更大范围检验与共创的起点。只有在真实场景中持续打磨,在标准与治理框架下进行,在产业链协同中扩散应用价值,具身智能才能真正从演示走向规模化落地。