随着大型生物样本库的快速发展,GWAS面临样本量大、高通量测序技术普及和电子健康记录复杂化三大特点。这些特点为研究带来了新的机遇,但也对算法的效率、准确性和普适性提出了更高要求。例如,样本量达数百万时,传统统计方法在计算速度和多重检验校正上显得力不从心;而电子健康记录中的复杂表型(如生存数据、纵向数据)需要更灵活的模型支持。

2025年6月12日,北京大学基础医学院医学遗传学系课题组长、研究员毕文健应邀莅临上海交通大学医学院临床研究中心并做题为“适用于复杂结构表型的全基因组关联分析算法”的报告。针对这些挑战,毕老师团队开发了一系列创新算法,显著提升了分析效能。
毕老师介绍了回顾性关联方法(retrospective association methods)以表型为条件、将基因型视为随机变量,从而为大规模遗传关联研究提供了可扩展、精准且通用的分析框架。基于这类分析框架,他带领团队提出了多种适用于复杂表型的大规模 GWAS 通用方法。SPAmix:通过利用原始基因型数据及 SNP 派生的主成分(PCs),为每个变异估计个体层面的等位基因频率,从而处理群体混合(population admixture)问题。SPAGRM:借助稀疏遗传关系矩阵(sparse GRM)和同源片段(IBD)信息,校正得分统计中的隐含遗传相关性,以调整样本亲缘关系的影响。SPAGxE:利用矩阵投影方法去除基因-环境交互作用分析中的遗传边际效应。结果表明,这些方法在保持较高统计功效的同时,能够严格控制第一类错误率,这些特点有助于实际数据分析找到更多的致病遗传位点。

毕老师的报告为参会者带来了如何让算法真正服务于人类健康的思维启迪。当理论创新与临床需求深度链接时,生物医学研究将释放出变革型力量,而这正是每位参会者可借鉴的方法论和使命感。