单细胞细胞周期相关基因文件准备中遇到的问题

我是做植物的花序发育，准备相关文件的时候遇到以下几个问题：

1 我做的这个作物研究细胞周期的很少，我是把我这个作物的所有基因与拟南芥的所有基因进行比对，然后通过这个去找细胞周期的相关基因，这样是否合理？

2然后我想准备一下细胞周期的基因列表，细胞周期是分为4个时期，G1，S,G2,M,课上讲的细胞周期相关的人类基因列表中示例数据中只有S时期的s.genes和g2/m时期的g2/m.genes，没有G1时期的，能解释一下为什么不加G1时期的？

3还有就是G2/M这里面的基因是包含G2，G2/M和M时期的所有基因还是只有G2/M时期的基因？

0 条评论
分类：其他

默认排序时间排序

1 个回答

omicsgene - 生物信息 19小时前

擅长：重测序,遗传进化,转录组,GWAS

1. 把作物的所有基因与拟南芥比对，借此寻找细胞周期相关基因，是否合理？

结论：这是非常合理且常规的做法，但建议在此基础上增加一些过滤和验证步骤。

合理性：拟南芥（Arabidopsis thaliana）是植物界功能注释最完善、研究最深入的模式生物。对于缺乏深度研究基础的非模式作物，利用拟南芥作为参考数据库（Reference）来挖掘同源基因是标准的生物信息学流程。
优化建议：
1. 避免简单的 BLAST 假阳性：简单的 BLAST（如 BLASTp）可能会因为蛋白结构域的保守性（例如所有的蛋白激酶都有激酶结构域）而把普通的代谢激酶错误地识别为细胞周期激酶（如 CDK）。建议使用 Reciprocal Best Hit (RBH，双向最佳比对) 或者使用 OrthoFinder 等软件来寻找真正的直系同源基因（Orthologs），这能有效排除旁系同源基因（Paralogs）的干扰。
2. 结合功能数据库过滤：拿到比对结果后，建议将拟南芥的靶基因映射到 KEGG 数据库（如 ko04110 Cell cycle 通路）或 Gene Ontology (GO) 数据库（如 GO:0007049 cell cycle）中进行验证，确保您找到的基因确实在生物学通路上归属于细胞周期。
3. 关注植物特异性：植物细胞周期有一些区别于动物和酵母的独特机制。例如，植物中不存在 E 型周期蛋白，但拥有庞大且能响应糖和激素信号的 D型周期蛋白（Cyclin D）家族。在注释时，您可以特别关注这些植物特有的调控元件。

2. 为什么标准的人类细胞周期基因列表（如 Seurat 的 cc.genes）中没有 G1 时期的基因？

结论：这是因为在转录组层面，G1期缺乏普适且特异的标志，且在主流算法中，G1期是通过“缺失”状态来反向定义的。

您提到的这个示例数据，大概率是来自单细胞转录组（scRNA-seq）分析中广泛使用的 Seurat R包中的经典细胞周期基因列表（包含 43 个 s.genes 和 54 个 g2m.genes）。这个列表最初来源于 Tirosh 和 Macosko 等人的经典文献。不加 G1 期基因的原因主要有以下几点：

G1/G0 期异质性极高且难以区分： G1 期是一个转录异质性非常高的阶段。一部分细胞正在积极准备进入 S 期（Active G1），而另一部分细胞可能已经退出了细胞周期，进入了静止期（G0 期）或正在走向分化。在转录组层面，G1 期和 G0 期的表达谱非常相似。很难找到一组普遍适用、能严格区分“活跃 G1”和“静止 G0”的基因标记。
算法逻辑：G1 是“背景”状态：在 Seurat 的 CellCycleScoring 算法中，程序会计算每个细胞的 S 期得分（S.Score）和 G2/M 期得分（G2M.Score）。
- 如果 S.Score > G2M.Score 且大于 0，则判定为 S 期；
- 如果 G2M.Score > S.Score 且大于 0，则判定为 G2/M 期；
- 如果两者的得分都很低（或小于 0），程序就会自动将该细胞判定为 G1 期。因此，G1 期不需要专属的 marker genes，它是通过“缺乏 S 和 G2/M 的转录特征”来默认定义的。
原始实验设计的限制：这些基因列表最初是基于流式细胞术（FACS）分选细胞后做转录组测序得出的。FACS 只能根据 DNA 含量（2N 或 4N）来分选。虽然 G1 期是 2N，但其转录特征在实验中被证明不如 S 期和 G2/M 期的基因表达峰值那么锐利和保守。

3. G2/M 基因列表（g2m.genes）包含的是哪些时期的基因？

结论：它包含了 G2 期、G2/M 过渡期以及 M 期（有丝分裂期）的所有相关基因。

实验分选的局限性：在构建这些基因列表的原始生物学实验中（例如经典的 Whitfield 等人 2002 年的细胞周期研究），研究人员使用 DNA 染料对细胞进行分选。处于 G2 期和 M 期的细胞，其 DNA 含量都是 4N（四倍体 DNA 含量）。常规流式细胞术无法在物理上把 G2 期和 M 期完全剥离开来，因此收集到的统称为 “G2/M 组分”。
基因表达的连续性：很多调控有丝分裂的核心基因（例如 CCNB1/2、CDK1、BIRC5、MKI67、TOP2A 等），它们的 mRNA 在 G2 期晚期就开始大量积累转录，在 G2/M 过渡期达到峰值，并在整个 M 期维持高表达以支撑染色质凝集、纺锤体组装和细胞分裂。
总结：所谓的 g2m.genes 并不是仅仅指“跨越 G2/M 边界”的那一瞬间的基因，而是泛指在 DNA 含量为 4N 的阶段（即整个 G2 期 + 整个 M 期）呈现高表达特征的基因集合。

单细胞细胞周期相关基因文件准备中遇到的问题

1 个回答

1. 把作物的所有基因与拟南芥比对，借此寻找细胞周期相关基因，是否合理？

2. 为什么标准的人类细胞周期基因列表（如 Seurat 的 cc.genes）中没有 G1 时期的基因？

3. G2/M 基因列表（g2m.genes）包含的是哪些时期的基因？

相似问题