长期以来,靶向药物发现面临“靶点多、空间大、验证慢”的现实难题。
一方面,人体潜在可成药靶点数量庞大,相关基础研究持续产出新线索;另一方面,从海量候选化合物中找到可能有效、可成药且安全的“起点分子”,往往需要经历计算、实验、迭代的多轮筛选与验证。
传统计算筛选虽能降低部分实验成本,但在大规模、多靶点并行探索时仍受限于计算量、时间成本与预测精度等因素,难以支撑面向全基因组水平的系统性检索。
业内普遍认为,这一瓶颈直接影响早期药物发现的效率与成功率。
造成这一矛盾的根源,在于药物研发的复杂性与数据结构的多样性叠加:蛋白质口袋形态千差万别,小分子结构组合呈指数级增长;同时,许多疾病相关靶点缺乏成熟的先导化合物与高质量实验数据,导致筛选既要“快”,又要“准”。
此外,研发实践中还存在资源分配难题——对于尚未被充分探索的新靶点,企业与机构往往难以承担大规模试错成本,进而形成“可研究靶点集中、长尾靶点空白”的局面。
如何以更低成本拓展靶点覆盖面、提高命中率,成为推动新药供给质量提升的重要课题。
在这一背景下,清华大学智能产业研究院兰艳艳教授联合生命学院、化学系等团队研发的DrugCLIP平台提出了新的技术路径。
研究显示,该平台在筛选速度上相较传统方法实现数量级跃升,并在预测准确性方面取得进展,使得对更大范围靶点进行快速检索成为可能。
依托该平台,团队完成了覆盖人类基因组尺度的虚拟筛选:面向约1万个蛋白靶点、2万个蛋白口袋,对超过5亿个类药小分子进行计算分析,富集出超过200万个潜在活性分子,同时构建了大规模蛋白-配体筛选数据库,并向全球科研群体开放。
相关研究以“Deep contrastive learning enables genome-wide virtual screening”为题发表于《科学》。
这一成果的意义,首先体现在“规模”与“可及性”的双重突破。
过去,针对少数热门靶点的筛选更容易积累数据与经验,而面向更广阔的靶点空间往往进展缓慢。
此次以基因组级方式开展虚拟筛选,有助于把更多“沉默靶点”“长尾靶点”纳入系统视野,为罕见病、耐药性疾病以及复杂慢病等领域提供更丰富的候选线索。
其次,大规模数据库的开放共享,有利于促进不同机构之间的复用与比对,提高科研透明度和协同效率,减少重复计算与试验探索,为药物发现从“各自为战”走向“资源共建”提供基础支撑。
同时也应看到,虚拟筛选的产出仍需严格的实验验证与临床转化链条衔接。
潜在活性分子从“计算命中”到“可成药候选”,还要经历体外实验、动物模型、安全性评价、药代动力学优化等一系列环节。
平台的高通量优势,能够显著扩大早期线索池、提高研发起跑速度,但最终能否转化为可用药物,仍取决于数据质量、实验体系、疾病机制研究以及产业化能力的系统协同。
尤其在复杂疾病场景中,单靶点策略、联合用药策略、耐药机制演化等因素交织,更需要计算预测与实验迭代深度耦合。
面向未来,推动此类平台更好发挥效能,需要在“数据—算法—验证—转化”链条上形成更紧密的闭环:一是持续完善蛋白结构、口袋注释、活性数据等基础资源,提升数据标准化与可追溯性;二是加强与高通量实验、结构生物学、化学生物学等手段的协同,建立从筛选到验证的快速通道;三是鼓励开放数据库在科研与产业场景中规范使用,在尊重知识产权与合规要求前提下推动更广泛合作;四是围绕重大疾病与临床未满足需求,形成任务牵引的攻关机制,让技术能力更直接服务于公共健康目标与产业升级。
科技创新正在重塑药物研发的传统模式。
从实验室到临床,每一次技术突破都可能转化为拯救生命的希望。
DrugCLIP平台以百万倍的速度提升打开了基因组级别药物筛选的大门,这不仅是计算能力的飞跃,更是科研理念的革新。
当开放共享的数据库惠及全球科研社区,当前沿技术成果加速向临床应用转化,我们有理由相信,更多难以成药的靶点将被攻克,更多患者将从精准医疗中获益。
这场由技术驱动的药物研发革命,正在为人类健康事业书写新的篇章。