基因调控是怎么重新连线的

玛丽亚·波普佐娃是HSE计算机科学学院生物医学研究与技术中心的头儿,他们的团队用HSE人工智能研究中心的钱搞了个研究。为了把DNA四重螺旋这个老是躲着传统测绘工具的家伙抓住,他们给DNABERT换了个环境。以前只能靠观察活动片段才能看见它们,现在有了EndoQuad数据库这个大样本的帮助,重新训练出来的GQ-DNABERT不光能看序列,还能考虑周围的DNA上下文。这就让科学家一口气预测出了差不多360,000个四链体结构。 之前大家以为四链体都是单打独斗的,现在发现它们是成双成对工作的。这些家伙在富含鸟嘌呤的区域折叠成三维结,就像个标靶,把基因起始区跟附近能增强转录的元件连在一起。因为不同的实验捕捉到的只是子集,所以完整地图一直难产。GQ-DNABERT不仅发现了这么多四链体,还看出个规律:它们通常扎堆在启动子区域。 更神奇的是,研究团队把这些数据跟六种组织的单细胞测序数据放在一起看。在健康组织里,这些启动子–增强子对控制着有特定功能的基因,比如大脑里管神经的、肠道里管上皮的。可一旦癌变了情况就大不一样了,四链体的数量虽然差不多多,但它们调控的基因都转向了一个方向——就是那些管快速分裂的普遍生长程序。“正常细胞里它们是支持组织专业化的,癌细胞里它们就变成了快速细胞分裂的一部分。”Poptsova这么解释道。 这个图谱可以帮着医生看清楚在疾病里基因调控是怎么重新连线的。它可以指导未来的抗癌疗法去专门对付这些DNA结构。这项研究已经发表在了《核酸研究》杂志上。