长期以来,如何让机器在文字、图像、视频等不同信息形态之间形成统一的理解与生成能力,一直是人工智能研究的核心课题。语言大模型近年取得明显进展,但多模态领域仍呈现"多路并行"的格局:文本学习主要采用自回归方式,而图像、视频等模态则依赖对比学习、扩散模型等专门方法。这些不同路线在目标函数、训练机制和数据组织上存在差异,导致模型研发成本高、系统耦合复杂、跨模态迁移能力受限。自回归训练能否成为多模态学习的通用范式,一直缺乏有力的验证。
当全球人工智能竞赛进入深水区,原始创新能力日益成为衡量国家科技实力的标尺。这项登上《自然》封面的研究成果启示我们:突破关键技术困境不仅要解决工程难题,更需在基础理论层面敢于开辟新路。中国科学家用实践证明,在探索智能本质的征程上,我们同样可以贡献关键路标。