ai从数字世界走向物理世界

2020年启动“悟道”项目以来,智源研究院一直把焦点放在了原创底层技术和长远路径探索上。2025年6月,他们又发布了新一代成果“悟界”,目标是让AI从数字世界走向物理世界。这次“悟界”项目包含了Emu系列多模态世界模型、RoboBrain跨本体具身大脑,还有数字孪生心脏、脑科学基础模型以及全原子生命模型等。这些模型覆盖了宏观到微观的多个层面,展示了科研团队在通用AI方面的系统攻关能力。 Emu3这个新模型,其实就是Emu3.5的前身。它是把图像和视频也变成可以连续预测的“词元”序列。这样一来,模型就能用完全一样的目标和架构去处理文本、图片和视频。这就像找到了一种“万能学习法”,让AI用同一套逻辑去分析和创造不同类型的信息。 以前生成式AI主要靠预测下一个词元的自回归方法,但在处理多模态信息时,主流技术还是得靠对比学习或者扩散模型这种专门化的路径。“分科而治”虽然在各自领域成功了,但也带来了系统协同困难、技术栈复杂的问题。根本问题是:有没有一种像通用语言一样的方法,让AI像理解文字一样理解图像和视频? Emu3模型给出了肯定的回答。这种高度统一的方法不仅在理念上简洁,实践性能也跟专门化模型相当。在图像生成、图文理解、视频创作这些评测任务上,它都表现出很强的竞争力。 更让人兴奋的是,基于自回归的统一框架被认为有更大的扩展潜力。这次在《自然》期刊发表的研究实现了对大规模文本、图像和视频数据的统一学习,性能能与专门化路线比肩。这个框架对于构建可扩展、统一的多模态智能系统有重要意义。 智源研究院的这项突破不是孤立事件。自2020年启动项目以来,他们一直在做战略布局。这次在《自然》发表文章是我国科研机构主导的大模型成果第一次在主刊上露面,说明我们在AI基础理论和原始创新上有了坚实的积累。 这种原创性技术范式的提出和验证标志着我国AI科研进入了更深的“无人区”探索。它为构筑未来智能时代的核心竞争力贡献了中国智慧与方案。未来Emu3.5模型还会展示对物理世界动态运行规律的学习能力,尝试预测简单场景的变化。这为开发下一代世界模型及智能体奠定了关键基础。