我国科研机构自主研发多模态大模型成果登顶Nature 自回归路线统一多模态学习取得重大突破

长期以来，如何让机器在文字、图像、视频等不同信息形态之间形成统一的理解与生成能力，一直是人工智能研究的核心课题。语言大模型近年取得明显进展，但多模态领域仍呈现"多路并行"的格局：文本学习主要采用自回归方式，而图像、视频等模态则依赖对比学习、扩散模型等专门方法。这些不同路线在目标函数、训练机制和数据组织上存在差异，导致模型研发成本高、系统耦合复杂、跨模态迁移能力受限。自回归训练能否成为多模态学习的通用范式，一直缺乏有力的验证。

当全球人工智能竞赛进入深水区，原始创新能力日益成为衡量国家科技实力的标尺。这项登上《自然》封面的研究成果启示我们：突破关键技术困境不仅要解决工程难题，更需在基础理论层面敢于开辟新路。中国科学家用实践证明，在探索智能本质的征程上，我们同样可以贡献关键路标。