我国科研团队突破性构建虚拟细胞世界 为生命科学研究开辟新路径

问题——单细胞数据“看得见”但“推不动”的长期瓶颈; 近年来,单细胞RNA测序等技术快速发展,研究人员得以单个细胞尺度解析基因表达谱,刻画细胞在某一时间点的状态特征。这类数据像大量“快照”,能呈现细胞当下“在做什么”。但生命活动高度动态,仅靠静态观测很难回答一些关键问题:细胞状态如何随时间演化?外界干预(药物刺激、基因编辑、微环境变化等)会把细胞带向怎样的轨迹?能否在实验前对可能结果进行推演,从而减少试错、提高效率?在肿瘤异质性、免疫治疗反应、组织发育谱系等研究中,这类需求尤为突出。 原因——复杂系统与高维表达使传统方法难以实现“可控预测”。 从数据结构看,一个细胞的表达谱往往覆盖上万基因,变量多、噪声大、稀疏性强,同时基因调控网络存在非线性和多路径耦合。传统统计建模或轨迹推断方法在特定数据集上能给出一定解释,但在跨样本、跨组织、跨干预条件的泛化能力和可操作性上仍有明显不足。更关键的是,细胞对刺激的响应并非简单的线性变化,很多重要转变发生在少数基因的协同变化中,仅依赖局部涉及的性难以支撑对“干预—响应”链条的可靠推演。 影响——“虚拟细胞世界”尝试把快照变成可演算的动态系统。 据介绍,达摩院团队提出“灵枢-细胞”(Lingshu-Cell)概念,目标是用计算方法在虚拟环境中模拟细胞状态变化,构建可运行的“数字细胞世界”。其思路主要包括两点:一是把基因表达视为可学习的高维“表征语言”,在整体层面捕捉基因之间的依赖关系;二是沿着“补全—生成—推演”的路径,让模型不仅能复现已观测到的细胞状态,也能对缺失信息进行补全,并在不同干预条件下进行预测性模拟。论文提到其采用“掩码离散扩散模型”等技术路线,通过掩码学习与多步生成提升对复杂关联结构的建模能力。这类方法并非要替代实验,而是为实验提供更可操作的“先验推断”,帮助研究人员更快形成假设、聚焦验证方向。 对策——以“计算推演+实验验证”构建闭环,推动模型走向可用、可信。 业内人士认为,面向生物医学应用,模型能力需要在三上形成闭环:其一是数据侧,需要更高质量、标准化的单细胞数据和干预标注数据,尤其是可追踪的时间序列、药物剂量梯度、基因扰动等信息,以支撑对“因果方向”的学习;其二是验证侧,需建立严格的跨批次、跨平台、跨人群验证体系,并与湿实验形成快速反馈迭代,避免在数据偏差下产生“似是而非”的预测;其三是应用侧,优先落地在可量化、可回溯的场景,如药物初筛、细胞系与类器官实验设计、候选靶点优先级排序等,用真实任务指标评估效率提升和成本节约。同时在伦理与合规层面,涉及人类样本与临床数据的研究仍需强化隐私保护与数据安全治理,确保技术推进与规范要求同步。 前景——从“细胞电影”到“可控干预图谱”,生命科学或迎来新的研究范式。 随着大规模单细胞图谱、空间转录组、多组学测量等数据持续累积,具备跨模态整合与干预预测能力的计算模型将成为重要基础设施。未来,“虚拟细胞世界”若能在更多组织类型、疾病模型和干预条件下验证稳定性与可解释性,有望在三个方向释放潜力:一是加快药物研发早期的筛选与机制验证,缩短从靶点发现到候选物确定的周期;二是提升对复杂疾病异质性的理解,为个体化治疗反应预测提供新工具;三是推动基础研究从“描述性图谱”走向“可推演机制”,在发育、免疫、衰老等领域建立更系统的动态框架。同时也需要看到,生命系统的复杂性决定了“虚拟推演”必须长期与实验并行,模型输出只有经得起重复验证,才能真正转化为可靠的科研能力。

从“观测细胞”到“推演细胞”,是生命科学研究范式的重要跃迁。虚拟细胞世界的探索为理解复杂生物过程提供了新的计算视角,也对科学规范提出更高要求:既要用新工具拓展边界,也要在验证与标准上守住底线。只有让模型与实验相互校准、让结论经得起复现检验,数字化手段才能真正转化为认识生命、改善健康的可靠力量。