正选择分析之 Site Models

作为常用的正选择分析方法,计算Ka/Ks方法较为严格。本文介绍利用Sites Model方法来分析正选择基因。

在做遗传进化分析时,通常需要进行选择压力分析,筛选一下正选择基因。通常的做法是计算Ka/Ks,但是这种方法是比较严格的,因为正选择通常在短时间内作用于基因的几个位点,并且会被其余位点上的负选择抵消。因此,会使用其它一些方法来计算正选择基因,比如今天小编要说的Site Models。话不多说,下面就来介绍如何利用CODEML中的 Site Models 进行正选择基因分析。

Site Models 简介

Site Models是PAML软件CODEML程序的一个正选择作用分析模型,其主要观点是同一序列不同位点的ω值不同,其中ω = dN/dS,表示非同义/同义替换率ω比率用于度量正选择作用。简而言之,ω值 < 1,= 1,> 1表示负的纯净选择,中性进化和正选择。然而所有位点的平均ω比率和所有的种系几乎从不 > 1,因为正选择不可能在漫长的时间中作用于所有的位点。因此,真正要探究的只是一些种系和一些位点所受的正选择影响。

在进行Site Models分析时,需要设置control file中的Model=0。Site Models中有多个不同的模型,可由Nssites参数指定,根据不同Model的选择设置不同的值。值得注意的是,以此可以选择多个Site Models。如Nssites=0 1 2 3 7 8。

不同的Site Models 表示什么意思?

  1. M0即one-ratio Model,值得是所有位点的ω值是恒定的; 

  2. M1表示加假定有一部分位点的ω值为0,其他位点的ω值为1;

  3. M2是在M1的基础上增加了第三类ω值,该类ω是通过数据计算得到的,有可能大于1;

  4. M3假定所有位点的ω值呈简单的离散分布趋势;

  5. M7假定所有位点的ω属于矩阵(0,1)且呈beta分布; 

  6. M8是在M7的基础上增加另一类ω值,该值可通过计算得到,可以大于1;

其对应的参数如下:

attachments-2018-04-GCCn2vgn5adcacc7e0d4e.png

不同Model的比较可以得到什么样的结果? 

在Site Models 中,M0表示one ratio for all sites, M3表示所有位点的ω值呈简单的离散分布。对于这两个模型的比较并非用于正选择作用的检测,而是用于位点间ω值是否一致的检测。

M1 and M2 以及M7 and M8是用于正选择作用的检测,作者推荐使用这两组比较进行LRT检验来验证正选择。不过Prof.Yang认为,The M1-M2 comparison 与 the M7- M8 comparison相比,更加的稳定。M7和M8俩模型计算时间会长一些,如果要进行分析的基因较多,可以考虑不比 M7- M8。

如何检测positive sites?

在CODEML中,positive sites 的检测流程主要如图1所示:

attachments-2018-04-gEBEjrww5adcacd8e635f.png

CODEML computation:主要是对control file中的命令值进行设定之后,运行CODEML程序。运行CODEML程序需要三个文件,分别是序列文件(PHYLIP格式),树文件和控制文件。控制文件示例:

      seqfile = Fungi.fasta    * sequence data file name
    treefile = Fungi.tree   * tree structure file name

     outfile = mlc          * main result file name
       noisy = 3   * 0,1,2,3,9: how much rubbish on the screen
     verbose = 0   * 1: detailed output, 0: concise output
     runmode = 0   * 0: user tree;  1: semi-automatic;  2: automatic
                   * 3: StepwiseAddition; (4,5):PerturbationNNI; -2: pairwise

     seqtype = 1   * 1:codons; 2:AAs; 3:codons-->AAs
   CodonFreq = 2   * 0:1/61 each, 1:F1X4, 2:F3X4, 3:codon table
       clock = 0   * 0: no clock, unrooted tree, 1: clock, rooted tree
      aaDist = 0   * 0:equal, +:geometric; -:linear, {1-5:G1974,Miyata,c,p,v}
       model = 0

     NSsites = 0 3 1 2 7 8
                   * 0:one w; 1:NearlyNeutral; 2:PositiveSelection; 3:discrete;
                   * 4:freqs; 5:gamma;6:2gamma;7:beta;8:beta&w;9:beta&gamma;10:3normal
       icode = 0   * 0:standard genetic code; 1:mammalian mt; 2-10:see below
       Mgene = 0   * 0:rates, 1:separate; 2:pi, 3:kappa, 4:all

   fix_kappa = 0   * 1: kappa fixed, 0: kappa to be estimated
       kappa = .3   * initial or fixed kappa
   fix_omega = 0   * 1: omega or omega_1 fixed, 0: estimate
       omega = 1.3  * initial or fixed omega, for codons or codon-based AAs
       ncatG = 10   * # of categories in the dG or AdG models of rates

       getSE = 0   * 0: don't want them, 1: want S.E.s of estimates
RateAncestor = 0   * (0,1,2): rates (alpha>0) or ancestral states (1 or 2)

  Small_Diff = .45e-6
   cleandata = 1  * remove sites with ambiguity data (1:yes, 0:no)?
 fix_blength = 0  * 0: ignore, -1: random, 1: initial, 2: fixed, 3: proportional

Likelihood ratio test: 即对两个模型进行显著性水平比较,可以使用PAML软件自带Chi2子程序进行计算。先计算两个对应模型 Ln L 差值,并取绝对值后的数值乘以2,即2△Ln L =|Ln L 1-Ln L2|。利用Chi2程序计算P值,命令为:Chi2  2  2.03(2为自由度df,site models中df通常使用2;2.03为2△Ln L)。

输出值 prob <0.05视为显著,可认为该基因受到正选择。

PP value computation:主要是指位点后验概率的计算,该结果是显示在主输出文件 mlc中。标 "*" 号的位点为显著的正选择位点。CODEML程序中常见的计算后验概率的方法有BEB和NEB。与BEB相比,NEB在计算的过程中往往会忽略抽样误差。因此,Prof.Yang建议在读取运算结果时,可以直接将NEB result忽略,但值得注意的是,BEB只能在M2a和M8 model下运行。


参考文献:

Yang Z. PAML 4: phylogenetic analysis by maximum likelihood[J]. Molecular biology and evolution, 2007, 24(8): 1586-1591.

Yang Z. PAML: phylogenetic analysis by maximum likelihood[J]. University College London, London, 2000.


延伸阅读

NCBI批量下载 单拷贝直系同源基因 做进化树怎么选算法?p值还是 FDR ?| 勤工俭学好机会

  • 发表于 2018-04-22 10:39
  • 阅读 ( 12540 )
  • 分类:软件工具

你可能感兴趣的文章

相关问题

1 条评论

请先 登录 后评论
安生水
安生水

328 篇文章

作家榜 »

  1. omicsgene 658 文章
  2. 安生水 328 文章
  3. Daitoue 167 文章
  4. 生物女学霸 120 文章
  5. 红橙子 78 文章
  6. CORNERSTONE 72 文章
  7. xun 68 文章
  8. rzx 67 文章