GWAS中P值的筛选阈值原理是什么

GWAS中P值的筛选阈值原理是什么

对于统计学假设检验来说,多重检验校正是一个非常重要的领域。我们在进行假设检验的时候,通常会设置一个零假设,之后计算出一个p值,即数据分布符合原假设的概率,p值越低,即代表拒绝原假设的概率越大。我们通常认为p值<0.05是一个判断是否显著的阈值。但是在对多组数据同时进行比较的时候,简单地使用0.05作为阈值可能就不那么合适了。换句话说,在同时对多组数据进行处理和比较的时候,很可能其中部分数据因为随机效应而超过阈值,造成假阳性结果。而检验的次数越多,出现假阳性的概率就越大。而对于GWAS等对全基因组的位点进行统计学检验的分析,就急需一种方法来对结果的阈值进行校正。

Bonferroni校正即为最严格的多重检验矫正方法。其校正原理为:在同一数据集上同时检验n个相互独立的假设,那么用于每一假设的统计显著水平,应为仅检验一个假设时的显著水平的1/n。如以显著水平0.05检验同一数据集上两个独立的假设,此时用于检验该两个假设应使用更严格的0.025;对于10000个基因的检验,若将p设置为1e-6,进行10000次比较之后犯错误的概率是10-6*10000 = 0.01,严格地控制了假阳性的出现。

Bonferroni校正的主要应用范围就是GWAS,即全基因组关联分析。在全基因组关联分析中,如果对每个位点进行测试,以0.05的水平进行筛选,由上文可知,在1000000个位点中其假阳性的位点可能达到5%,即50000个,所以,为了控制假阳性的概率,以Bonferroni校正对阈值进行调整。Bonferroni校正会将设定的显著性水平除以测试次数,最终得到一个总的阈值。换句话说,它将阈值从a = 0.05调整为a =(0.05 / n),其中n是进行的统计检验的次数,即SNP的个数。最终得到的阈值根据进入分析的SNP数量不同会有较大的差异,但通常都会在1e-6以下的量级。

当然了,Bonferroni校正作为最严格的的多重假设检验校正方法,在实际应用当中也会出现一些问题。由于GWAS标记之间的连锁不平衡,可能会存在多个标记或者SNP之间相互连锁的情况,也就是说它们之间的分布并不是完全独立的,所以假设GWAS数据集的每个关联测试都是独立的是不正确的。因此,应用Bonferroni校正通常会为我们提供最保守的p值阈值。例如将1000000个位点纳入计算当中,Bonferroni校正所产生的阈值即为5e-8,由于其过为保守,往往会导致假阴性的产生,可能整个基因组中都很少有标记的关联p值能够达到这一标准。这时我们往往需要根据实际曼哈顿图的情况对阈值进行一些调整。

例如2019年Genome Biology桃重测序中的GWAS部分,大多数性状采用的均是经过Bonferroni校正的约3e-8的阈值,但是对于果实大小性状的GWAS分析,研究者将阈值降到了1e-5,以消除由于Bonferroni校正过于严格导致的假阴性。我们可以看到左图中虽然信号强度相对较低,但是有一簇SNP明显呈现连锁的信号,说明可能这里存在着一个与性状关联的QTL。


attachments-2020-11-Pxz1mqh65facc99ead16a.png

参考文献:

Li Y, Cao K, Zhu G, et al. Genomic analyses of an extensive collection of wild and cultivated accessions provide new insights into peach breeding history. Genome biology, 2019, 20(1): 36.

  • 发表于 2020-11-12 13:37
  • 阅读 ( 151 )
  • 分类:GWAS

0 条评论

请先 登录 后评论
omicsgene
omicsgene

生物信息

368 篇文章

作家榜 »

  1. omicsgene 368 文章
  2. 安生水 217 文章
  3. Daitoue 167 文章
  4. 生物女学霸 120 文章
  5. CORNERSTONE 72 文章
  6. 红橙子 50 文章
  7. 生信老顽童 48 文章
  8. landy 37 文章