我国企业开源全球首套具身智能全流程工具链实现机器人训练数据零样本迁移

机器人智能化发展的核心瓶颈正在被突破。跨维智能近日宣布开源具身智能工具链EmbodiChain。该工具链基于生成式仿真技术，实现了完全依靠合成数据训练视觉语言行动模型，并已成功部署到真实机器人环境中，标志着具身智能在数据获取路径上出现重要进展。长期以来，机器人领域的数据困境与大语言模型的成功形成对照。大语言模型依托对互联网存量文本的清洗与利用实现能力跃升，但这个范式在机器人领域难以复用，关键在于数据属性不同：具身智能训练数据必须满足物理规律，往往需要在真实环境中逐条采集，数据规模因此同时受制于时间成本与人力成本。传统“生成-存储-读取”的流程效率偏低，逐渐成为机器人智能化的重要瓶颈之一。EmbodiChain的核心思路是“以生成替代采集”。它通过生成式仿真构建持续在线的数据流，改变了数据获取方式。其技术框架包含三项模块：其一是世界生成能力，通过Real2Sim与Gen2Sim，系统可基于少量真实样本或自然语言指令，自动生成物理一致的三维场景与任务环境，把数据生产流程尽可能自动化。其二是数据扩增与自我修复机制，系统可随机化物理参数、增强视觉多样性，并在任务失败时自动生成修正轨迹——形成“错误-学习”的闭环——以提升模型鲁棒性。其三是特权信息驱动，EmbodiChain提供真实世界中不可直接观测的“上帝视角”信息，例如物体掩码、空间关系等，引导模型学习物理结构与因果关系，而非停留在像素表面特征。该路线与当前业界另一类生成式世界模型形成差异化选择。不同于Sora等视频生成模型更偏向像素级拟合，EmbodiChain坚持三维交互、物理精确的生成式仿真路径，并通过结构化特权信息约束训练过程，以提升策略在真实世界中的稳定性与可靠性。这一设计取向也与人工智能学者Yann LeCun提出的世界模型理念相呼应。为验证合成数据的实际效果，跨维智能进行了对标测试。研究团队使用100%仿真数据训练Sim2Real视觉语言行动模型，完全不引入真实数据。测试显示，该模型在真实环境中的操作成功率明显高于ACT、Diffusion Policy等依赖真实数据的主流方法，并在更换桌布、移动物体等干扰条件下保持较强稳定性。结果表明，生成式仿真数据不仅具备可行性，也可能因为减少对真实数据噪声的过拟合而带来性能优势。从应用前景看，跨维智能将EmbodiChain定位为具身智能领域的基础设施，目标是减轻研究者在数据采集与存储上的负担。公司后续将逐步发布由EmbodiChain自动训练的视觉语言行动基座模型及多个任务的示例代码，为学术界与产业界提供更标准化的开发起点，推动具身智能从实验室验证走向实际落地。

具身智能的竞争，表面是算法与算力，深层则是数据与工程体系的较量。以生成式仿真建立稳定的数据供给，意在把“物理世界的慢变量”转化为“可迭代的快变量”，让研究者把更多精力投入到可解释性、可控性与安全性等关键问题。开源只是第一步，这个路线能否经受更多任务、更广平台与第三方复现的检验，将决定它是否能成为推动具身智能规模化应用的长期基础能力。

我国企业开源全球首套具身智能全流程工具链 实现机器人训练数据零样本迁移

我国企业开源全球首套具身智能全流程工具链实现机器人训练数据零样本迁移