1. 把作物的所有基因与拟南芥比对,借此寻找细胞周期相关基因,是否合理?
结论:这是非常合理且常规的做法,但建议在此基础上增加一些过滤和验证步骤。
- 合理性: 拟南芥(Arabidopsis thaliana)是植物界功能注释最完善、研究最深入的模式生物。对于缺乏深度研究基础的非模式作物,利用拟南芥作为参考数据库(Reference)来挖掘同源基因是标准的生物信息学流程。
- 优化建议:
- 避免简单的 BLAST 假阳性: 简单的 BLAST(如 BLASTp)可能会因为蛋白结构域的保守性(例如所有的蛋白激酶都有激酶结构域)而把普通的代谢激酶错误地识别为细胞周期激酶(如 CDK)。建议使用 Reciprocal Best Hit (RBH,双向最佳比对) 或者使用 OrthoFinder 等软件来寻找真正的直系同源基因(Orthologs),这能有效排除旁系同源基因(Paralogs)的干扰。
- 结合功能数据库过滤: 拿到比对结果后,建议将拟南芥的靶基因映射到 KEGG 数据库(如 ko04110 Cell cycle 通路)或 Gene Ontology (GO) 数据库(如 GO:0007049 cell cycle)中进行验证,确保您找到的基因确实在生物学通路上归属于细胞周期。
- 关注植物特异性: 植物细胞周期有一些区别于动物和酵母的独特机制。例如,植物中不存在 E 型周期蛋白,但拥有庞大且能响应糖和激素信号的 D型周期蛋白(Cyclin D) 家族。在注释时,您可以特别关注这些植物特有的调控元件。
2. 为什么标准的人类细胞周期基因列表(如 Seurat 的 cc.genes)中没有 G1 时期的基因?
结论:这是因为在转录组层面,G1期缺乏普适且特异的标志,且在主流算法中,G1期是通过“缺失”状态来反向定义的。
您提到的这个示例数据,大概率是来自单细胞转录组(scRNA-seq)分析中广泛使用的 Seurat R包中的经典细胞周期基因列表(包含 43 个 s.genes 和 54 个 g2m.genes)。这个列表最初来源于 Tirosh 和 Macosko 等人的经典文献。不加 G1 期基因的原因主要有以下几点:
- G1/G0 期异质性极高且难以区分: G1 期是一个转录异质性非常高的阶段。一部分细胞正在积极准备进入 S 期(Active G1),而另一部分细胞可能已经退出了细胞周期,进入了静止期(G0 期)或正在走向分化。在转录组层面,G1 期和 G0 期的表达谱非常相似。很难找到一组普遍适用、能严格区分“活跃 G1”和“静止 G0”的基因标记。
- 算法逻辑:G1 是“背景”状态: 在 Seurat 的 CellCycleScoring 算法中,程序会计算每个细胞的 S 期得分(S.Score)和 G2/M 期得分(G2M.Score)。
- 如果 S.Score > G2M.Score 且大于 0,则判定为 S 期;
- 如果 G2M.Score > S.Score 且大于 0,则判定为 G2/M 期;
- 如果两者的得分都很低(或小于 0),程序就会自动将该细胞判定为 G1 期。 因此,G1 期不需要专属的 marker genes,它是通过“缺乏 S 和 G2/M 的转录特征”来默认定义的。
- 原始实验设计的限制: 这些基因列表最初是基于流式细胞术(FACS)分选细胞后做转录组测序得出的。FACS 只能根据 DNA 含量(2N 或 4N)来分选。虽然 G1 期是 2N,但其转录特征在实验中被证明不如 S 期和 G2/M 期的基因表达峰值那么锐利和保守。
3. G2/M 基因列表(g2m.genes)包含的是哪些时期的基因?
结论:它包含了 G2 期、G2/M 过渡期 以及 M 期(有丝分裂期)的所有相关基因。
- 实验分选的局限性: 在构建这些基因列表的原始生物学实验中(例如经典的 Whitfield 等人 2002 年的细胞周期研究),研究人员使用 DNA 染料对细胞进行分选。处于 G2 期和 M 期的细胞,其 DNA 含量都是 4N(四倍体 DNA 含量)。常规流式细胞术无法在物理上把 G2 期和 M 期完全剥离开来,因此收集到的统称为 “G2/M 组分”。
- 基因表达的连续性: 很多调控有丝分裂的核心基因(例如 CCNB1/2、CDK1、BIRC5、MKI67、TOP2A 等),它们的 mRNA 在 G2 期晚期就开始大量积累转录,在 G2/M 过渡期达到峰值,并在整个 M 期维持高表达以支撑染色质凝集、纺锤体组装和细胞分裂。
- 总结: 所谓的 g2m.genes 并不是仅仅指“跨越 G2/M 边界”的那一瞬间的基因,而是泛指在 DNA 含量为 4N 的阶段(即整个 G2 期 + 整个 M 期)呈现高表达特征的基因集合。
