单细胞细胞周期相关基因文件准备中遇到的问题

我是做植物的花序发育,准备相关文件的时候遇到以下几个问题:

1 我做的这个作物研究细胞周期的很少,我是把我这个作物的所有基因与拟南芥的所有基因进行比对,然后通过这个去找细胞周期的相关基因,这样是否合理?

2然后我想准备一下细胞周期的基因列表,细胞周期是分为4个时期,G1,S,G2,M,课上讲的细胞周期相关的人类基因列表中示例数据中只有S时期的s.genes和g2/m时期的g2/m.genes,没有G1时期的,能解释一下为什么不加G1时期的?

3还有就是G2/M这里面的基因是包含G2,G2/M和M时期的所有基因还是只有G2/M时期的基因?

请先 登录 后评论

1 个回答

omicsgene - 生物信息
擅长:重测序,遗传进化,转录组,GWAS

1. 把作物的所有基因与拟南芥比对,借此寻找细胞周期相关基因,是否合理?

结论:这是非常合理且常规的做法,但建议在此基础上增加一些过滤和验证步骤。
  • 合理性: 拟南芥(Arabidopsis thaliana)是植物界功能注释最完善、研究最深入的模式生物。对于缺乏深度研究基础的非模式作物,利用拟南芥作为参考数据库(Reference)来挖掘同源基因是标准的生物信息学流程。
  • 优化建议:
    1. 避免简单的 BLAST 假阳性: 简单的 BLAST(如 BLASTp)可能会因为蛋白结构域的保守性(例如所有的蛋白激酶都有激酶结构域)而把普通的代谢激酶错误地识别为细胞周期激酶(如 CDK)。建议使用 Reciprocal Best Hit (RBH,双向最佳比对) 或者使用 OrthoFinder 等软件来寻找真正的直系同源基因(Orthologs),这能有效排除旁系同源基因(Paralogs)的干扰。
    2. 结合功能数据库过滤: 拿到比对结果后,建议将拟南芥的靶基因映射到 KEGG 数据库(如 ko04110 Cell cycle 通路)或 Gene Ontology (GO) 数据库(如 GO:0007049 cell cycle)中进行验证,确保您找到的基因确实在生物学通路上归属于细胞周期。
    3. 关注植物特异性: 植物细胞周期有一些区别于动物和酵母的独特机制。例如,植物中不存在 E 型周期蛋白,但拥有庞大且能响应糖和激素信号的 D型周期蛋白(Cyclin D) 家族。在注释时,您可以特别关注这些植物特有的调控元件。

2. 为什么标准的人类细胞周期基因列表(如 Seurat 的 cc.genes)中没有 G1 时期的基因?

结论:这是因为在转录组层面,G1期缺乏普适且特异的标志,且在主流算法中,G1期是通过“缺失”状态来反向定义的。
您提到的这个示例数据,大概率是来自单细胞转录组(scRNA-seq)分析中广泛使用的 Seurat R包中的经典细胞周期基因列表(包含 43 个 s.genes 和 54 个 g2m.genes)。这个列表最初来源于 Tirosh 和 Macosko 等人的经典文献。不加 G1 期基因的原因主要有以下几点:
  • G1/G0 期异质性极高且难以区分: G1 期是一个转录异质性非常高的阶段。一部分细胞正在积极准备进入 S 期(Active G1),而另一部分细胞可能已经退出了细胞周期,进入了静止期(G0 期)或正在走向分化。在转录组层面,G1 期和 G0 期的表达谱非常相似。很难找到一组普遍适用、能严格区分“活跃 G1”和“静止 G0”的基因标记。
  • 算法逻辑:G1 是“背景”状态: 在 Seurat 的 CellCycleScoring 算法中,程序会计算每个细胞的 S 期得分(S.Score)和 G2/M 期得分(G2M.Score)。
    • 如果 S.Score > G2M.Score 且大于 0,则判定为 S 期
    • 如果 G2M.Score > S.Score 且大于 0,则判定为 G2/M 期
    • 如果两者的得分都很低(或小于 0),程序就会自动将该细胞判定为 G1 期。 因此,G1 期不需要专属的 marker genes,它是通过“缺乏 S 和 G2/M 的转录特征”来默认定义的。
  • 原始实验设计的限制: 这些基因列表最初是基于流式细胞术(FACS)分选细胞后做转录组测序得出的。FACS 只能根据 DNA 含量(2N 或 4N)来分选。虽然 G1 期是 2N,但其转录特征在实验中被证明不如 S 期和 G2/M 期的基因表达峰值那么锐利和保守。

3. G2/M 基因列表(g2m.genes)包含的是哪些时期的基因?

结论:它包含了 G2 期、G2/M 过渡期 以及 M 期(有丝分裂期)的所有相关基因。
  • 实验分选的局限性: 在构建这些基因列表的原始生物学实验中(例如经典的 Whitfield 等人 2002 年的细胞周期研究),研究人员使用 DNA 染料对细胞进行分选。处于 G2 期和 M 期的细胞,其 DNA 含量都是 4N(四倍体 DNA 含量)。常规流式细胞术无法在物理上把 G2 期和 M 期完全剥离开来,因此收集到的统称为 “G2/M 组分”
  • 基因表达的连续性: 很多调控有丝分裂的核心基因(例如 CCNB1/2CDK1BIRC5MKI67TOP2A 等),它们的 mRNA 在 G2 期晚期就开始大量积累转录,在 G2/M 过渡期达到峰值,并在整个 M 期维持高表达以支撑染色质凝集、纺锤体组装和细胞分裂。
  • 总结: 所谓的 g2m.genes 并不是仅仅指“跨越 G2/M 边界”的那一瞬间的基因,而是泛指在 DNA 含量为 4N 的阶段(即整个 G2 期 + 整个 M 期)呈现高表达特征的基因集合
请先 登录 后评论