evo 2是开源的人工智能系统就算是出来了

把数万亿个碱基对的DNA给Evo 2训练完,它就学会了在像我们这种复杂的基因组里找到那些人类都很难发现的调控DNA和剪接位点。给它用来自细菌、古细菌和真核生物这三界的基因组资料喂饱了之后,这个开源的人工智能系统就算是出来了。到了2025年底,我们之前已经报道过Evo的开发情况了,那会儿它是靠着看了一大堆细菌的基因图谱才把活儿干好的。给它一个提示,它就能猜出下一个基因的序列,或者编出一种新的蛋白质来。这招之所以管用,是因为细菌喜欢把关系紧密的基因凑在一块儿排排坐。不过这招儿拿到了真核生物身上就不灵了,因为真核生物的DNA结构太复杂。 真核生物的基因编码区老是被内含子打断得七零八落,这些不干活的内含子还得靠散布在几十万个碱基对里的序列来管。那些界定内含子边界或者说蛋白质怎么结合的地方的序列,定义都非常模糊。虽然有些碱基是必须有的,但有很多碱基仅仅是出现频率比平均值高一点罢了,比如“45%的情况下它是T”。这一大堆乱七八糟的序列外面还裹着一层叫做垃圾的DNA,像失活的病毒或者坏了的基因。 这些基因组的复杂程度给研究带来了极大的难题,传统的生物信息学办法往往在预测功能和调控机制时吃瘪。好在《自然》杂志2026年发表的研究证明了基于深度学习的模型在这块儿确实强,特别是在预测基因表达和疾病风险上表现特别好。有人猜测Evo 2可能用了Transformer架构,这种在处理文字上特别厉害的模型通过自注意力机制能抓住DNA序列里的长程依赖关系。 既然Evo 2是开源的,这就给了科学家们合作搞创新的好机会。大家一起搞新药研发和疾病诊断的速度肯定也会被大大加快。团队把挑战摆在了明面上,现在的Evo 2明显就是在这条路上往前走了一大步。