最近,我们国家有个挺厉害的消息,说北京智源人工智能研究院主导完成了一项多模态大模型的研究,成果发表在国际顶尖学术期刊《自然》上了。这次研究是关于Emu3模型的,它只用了“预测下一个词元”这种自回归技术,就成功把文本、图像和视频这些多模态信息统一起来了。Emu3这个模型表现还不错,性能跟那些用专门路线的模型差不多。这次突破对我们国家来说意义重大,首先是基础理论层面,它验证了自回归路线能作为通用智能框架。 再看看技术发展层面,这个方法开辟了高效训练多模态大模型的新路子。还有创新体系层面,展示了我国科研力量在这个领域的积累和自主创新能力。智源研究院从2022年就开始搞Emu系列研发了,一直都在核心基础问题上下功夫。这次能在《自然》发表文章,说明他们坚持长期主义投入是对的。 现在全球的生成式人工智能发展很快,很多核心技术都是大规模预训练模型驱动的。自2018年以来,像GPT这样的语言大模型用“预测下一个词元”的自回归技术取得了很大成功。但是在处理更复杂的多模态信息时,大家用得更多的是对比学习、扩散模型这些专门化的技术。现在有个问题大家还没弄清楚:自回归这种简洁的框架能不能在多模态信息处理上也适用呢?智源研究院的研究给出了肯定答案。 这个研究团队坚持用“原生多模态”技术路线,经过很多次迭代攻关终于研发出了Emu3模型。Emu3只用了一种训练目标就搞定了各种类型的数据学习。这次突破让我们看到了国产原创成果在国际顶尖刊物上发表的希望。 这对我们国家来说不仅仅是一个技术突破,更是一种原创精神和基础研究实力提升的象征。面对全球竞争激烈的人工智能技术发展态势,我们要继续坚持“四个面向”,鼓励科研人员去探索那些还没有被发现或者还没人涉足的领域。这次成果是一个新起点,希望我们国家科研界能在这个基础上持续产出更多引领性、颠覆性的发现,为全球人工智能科学发展贡献更多中国智慧和中国方案。