emu3 模型“预测下一个词元”的自回归技术

最近，我们国家有个挺厉害的消息，说北京智源人工智能研究院主导完成了一项多模态大模型的研究，成果发表在国际顶尖学术期刊《自然》上了。这次研究是关于Emu3模型的，它只用了“预测下一个词元”这种自回归技术，就成功把文本、图像和视频这些多模态信息统一起来了。Emu3这个模型表现还不错，性能跟那些用专门路线的模型差不多。这次突破对我们国家来说意义重大，首先是基础理论层面，它验证了自回归路线能作为通用智能框架。再看看技术发展层面，这个方法开辟了高效训练多模态大模型的新路子。还有创新体系层面，展示了我国科研力量在这个领域的积累和自主创新能力。智源研究院从2022年就开始搞Emu系列研发了，一直都在核心基础问题上下功夫。这次能在《自然》发表文章，说明他们坚持长期主义投入是对的。现在全球的生成式人工智能发展很快，很多核心技术都是大规模预训练模型驱动的。自2018年以来，像GPT这样的语言大模型用“预测下一个词元”的自回归技术取得了很大成功。但是在处理更复杂的多模态信息时，大家用得更多的是对比学习、扩散模型这些专门化的技术。现在有个问题大家还没弄清楚：自回归这种简洁的框架能不能在多模态信息处理上也适用呢？智源研究院的研究给出了肯定答案。这个研究团队坚持用“原生多模态”技术路线，经过很多次迭代攻关终于研发出了Emu3模型。Emu3只用了一种训练目标就搞定了各种类型的数据学习。这次突破让我们看到了国产原创成果在国际顶尖刊物上发表的希望。这对我们国家来说不仅仅是一个技术突破，更是一种原创精神和基础研究实力提升的象征。面对全球竞争激烈的人工智能技术发展态势，我们要继续坚持“四个面向”，鼓励科研人员去探索那些还没有被发现或者还没人涉足的领域。这次成果是一个新起点，希望我们国家科研界能在这个基础上持续产出更多引领性、颠覆性的发现，为全球人工智能科学发展贡献更多中国智慧和中国方案。