问题:长期以来,人类基因组研究多以单一参考序列作为“标准坐标”。这种做法推动了基础研究与临床探索,但也存明显局限:在人类基因组中,重复序列密集、结构复杂的区域往往难以被完整读取和准确拼接,导致相当一部分内容处于“看不见、比不准、难解释”的状态。面对个体差异显著的复杂变异,单一参考也难以完整呈现不同人群的真实遗传多样性,进而影响疾病有关位点的发现以及变异频率的评估。 原因:技术路线与成本约束仍是主要限制。一上,传统短读长测序准确度较高,但难以跨越大片段重复区和结构变异;另一方面,长读长测序更有利于搭建基因组的连续框架,但成本、通量和数据处理上门槛更高。受这些因素影响,以往泛基因组研究的样本量多停留在几十到百人规模,难以在更大人群范围内稳定识别稀有和复杂变异,也难以可靠估计其在人群中的分布。 影响:此次研究提出基于泛基因组的联合组装方法,以二代测序提供高准确度信息、三代测序辅助构建连续框架,形成兼顾质量与成本的组装流程,从而将高质量基因组组装从“小样本探索”推进到“千人规模应用”。研究团队构建的泛基因组包含1116个二倍体基因组,组装错误率约为五万分之一,为大规模人群基因组分析提供了更稳固的基础。研究还指出,传统参考基因组仍遗漏超过4亿碱基对的未知序列,约占人类基因组总规模的13%。在这些新增序列中,团队识别出约2620万碱基对的功能基因与调控元件,并构建了更细致的遗传变异图谱:既覆盖约3540万个小变异,也对结构变异、串联重复、嵌套变异等过去难以检测的复杂变异进行系统刻画,更锁定了数千个与基因表达调控相关的关键复杂变异线索。业内认为,这些信息将提升疾病遗传学研究的解析能力,尤其有助于解释“既有检测难以发现、临床表型难以对应”的疑难病例。 对策:推动泛基因组从科研走向健康应用,需要在“数据、标准、治理”三上同步推进。其一,持续扩大覆盖不同地域与人群背景的样本规模,减少人群偏倚,提高变异频率估计与致病性判断的可靠性;其二,完善高质量组装、变异注释与质量控制等技术标准,提升不同研究之间的可比性与复用性;其三,健全隐私保护与合规共享机制,在合法合规前提下推动科研数据服务临床诊断、药物研发与公共卫生决策,形成从基础发现到临床转化的衔接路径。 前景:随着测序成本下降、算法与算力进步,大规模泛基因组有望成为未来遗传研究的重要基础设施。结合转录组、表观组等多组学信息,将更精细地解释遗传变异如何影响基因表达与疾病发生。对罕见病而言,千人乃至更大规模的高质量泛基因组资源,意味着可以在更广泛的“对照背景”中定位致病变异,提高诊断率并缩短确诊时间;对常见病与复杂性状研究而言,也有望提升风险评估模型的适用性与人群泛化能力,为个体化预防与干预提供更可靠的依据。
基因组研究的突破,常常来自对“看不见区域”的持续探索以及对关键技术瓶颈的解决。随着千人级泛基因组框架优化,人类遗传信息的“底图”将更完整,复杂变异的作用机制也将更容易被解释。要把科学发现转化为可验证、可应用的公共健康价值,仍需在技术迭代、标准建设与协同治理上持续推进。