(问题)新一轮智能技术竞速中,如何让模型不仅“会生成”,更能“会理解、会行动”,成为行业从数字内容走向现实应用的关键问题;长期以来,面向真实世界的智能系统普遍存两类瓶颈:一是数字世界模型与现实环境之间存在“鸿沟”,难以完成从感知到决策再到执行的闭环;二是具身智能在真实场景的数据获取成本高、规模受限,导致模型泛化不足、落地成本偏高。 (原因)上述瓶颈的关键在于底层世界建模能力与数据体系仍不完善:其一,传统模型多围绕单一任务或单一模态优化,面对视觉、听觉、触觉等复杂信息时难以形成统一表征,理解与推理能力因此被切割;其二,真实世界的行动数据,尤其是高质量轨迹数据,采集受设备、场地与安全等条件限制,难以像互联网文本或图片那样快速规模化,形成所谓“数据墙”;其三,产业应用场景差异大、环境变化快,缺少可迁移、可扩展的底座能力时,系统容易在新任务、新工况下表现不稳定甚至失效。 (影响)鉴于此,生数科技在论坛上提出通用世界模型战略,强调以“基座世界模型”为核心,构建贯通数字空间与物理空间的双轨体系。企业表示,该战略旨在形成对世界的统一认知与建模能力:一上服务数字空间的内容生成与交互模拟,提升生产效率与用户体验;另一方面面向物理空间的行动决策,增强具身智能复杂环境中的适应性与可靠性。有关能力若持续成熟,有望推动智能应用从“单点工具”向“系统级平台”演进,并为机器人、智能终端、工业控制等领域提供更通用的底层支撑。 (对策)围绕“数据墙”问题,生数科技提出以视频为核心构建可扩展的数据体系:从海量互联网视频出发,逐步延伸至第一视角操作视频,再到机器人数据,形成层级递进的数据结构,以减少对高成本标注与真实轨迹数据的依赖,提高模型学习行动能力的效率。产品层面,企业展示了面向数字空间的视频大模型Vidu,强调其在单时点与多时点世界模拟、流式生成与交互上的能力;面向物理空间,则推出世界行动模型Motus,旨提升具身智能在数据稀缺条件下的学习与泛化能力,缓解传统系统“学习慢、换场景易失灵”的问题。业内人士指出,这种“底座模型+数据体系+场景产品”的组合思路,有助于缩短从实验室到产业可用的距离,但在安全合规、评测体系与工程可靠性等仍需持续完善。 (前景)从行业趋势看,通用世界模型正被视为迈向更高层级通用智能的重要路线之一。随着多模态建模、仿真训练与具身学习方法迭代,通用世界模型有望更快进入产业验证期,并在制造、物流、文旅、教育培训与家庭服务等领域催生新应用形态。同时,产业生态的开放程度也受到关注:若通用底座能力逐渐成为智能终端的“基础件”,就需要在接口标准、数据协作、算力资源与中小企业参与机制等上形成更可持续的路径,避免技术红利过度集中,提高创新扩散效率。
通用世界模型的价值,不仅在于让数字世界“生成得更像”,更在于让智能系统在物理世界“做得更稳”。从破解数据瓶颈到推进多模态统一建模,从产品验证到规模部署,这些探索反映了我国科技企业对前沿方向的持续投入。面向未来,只有在创新突破与规范治理、技术进步与产业普惠之间取得更好平衡,才能让智能技术更快转化为高质量发展的现实生产力。