2025年2月 GigaScience杂志发表了一篇题为“The telomere-to-telomere genome of flowering cherry (Prunus campanulata) reveals genomic evolution of the subgenus Cerasus”的基因组组装文章。
Prunus campanulata(钟花樱桃)是一种具有重要观赏和遗传价值的樱桃品种,具有早花、花色鲜艳、抗病性强、自交亲和等优良性状,且基因组较小(2n=16),是研究樱桃基因组的理想模型。
T2T基因组组装技术能够填补传统基因组组装中的缺口,解析高度重复区域(如端粒、着丝粒),为基因组结构、基因功能和进化研究提供更完整的参考。
结合PacBio HiFi、Oxford Nanopore超长读长(ONT)、Illumina短读长和Hi-C染色质构象捕获技术,生成高质量基因组数据。最终的基因组大小为 266.23 Mb,锚定在8个染色体上,N50=31.6Mb,BUSCO完整度为98.9%,QV序列一致性打分为48.75。
方法: LTR_Finder和 LTR_retriever 识别非冗余的长末端重复序列; RepeatModeler 全局预测。以上软件的结果作为数据库,和Repbase合并,利用RepeatMasker 使用该库来预测整个基因组中的重复序列。此外还使用RepeatProteinMask进行TE蛋白预测。
结果:共鉴定出 130.84 Mb 的重复序列,占整个基因组的 49.14%。其中含有23.92% 的 LTR 反转录转座子、15.47% 的 DNA 转座子、4.63% 的长穿梭核元件、0.47% 的短穿梭核元件和 7.01% 未表征的 TE
端粒:使用 Winnowmap把ONT比对到基因组上,把比对到每条染色体末端50bp的序列提取出来,计算了read中端粒重复序列的频率。端粒重复次数最多的读取被指定为参考,其他读取被指定为查询。medaka_consensus用来重新组装基因组和端粒序列,从而产生共有序列。使用 MUMmer 将该共有序列与每条染色体进行比对,用最佳比对结果替换掉末端端粒序列。利用端粒重复作为查询,成功鉴定了位于 8 条染色体末端的 13 个端粒。
着丝粒:利用TRF和着丝粒区域中低密度基因分布的独特特征,基于BEDTools 来计算10kb窗口内的 TRF和基因覆盖率。和 Hi-C 相互作用热图、大空白区域、低基因密度区域和高 LTR/Gypsy 密度区域整合,预测了染色体内的 8 个着丝粒区域,长度范围为 1.98 至 2.99 Mb。
使用 tRNAscan-SE 鉴定了基因组中的转移 RNA ,使用 rRNA 数据库预测核糖体 RNA,并使用 Infernal v1.1.2基于 Rfam 数据库注释snRNA 和 microRNA 。总共鉴定了 2,414 个非编码 RNA,包括 287 个 miRNA、668 个 tRNA、886 个 rRNA 和 573 个 snRNA。
从头 、基于同源和转录组预测方法的组合,鉴定了 28,961 个蛋白质编码基因。转录本、编码序列 (CDS)、外显子和内含子的平均长度分别约为 3,724 bp、1,141 bp、320 bp 和 523 bp,每个基因平均有 5.02 个外显子。96.45%的基因起码在一个功能数据库中被注释到。BUSCO 分析显示,完整度为98.2%。
把自己的组装和此前的V1.0版本组装进行比较,有 270.82 Mb (97.5%) 的共线区。在共线性区域内鉴定了336,943 个单核苷酸多态性 (SNP),其中 166,274 个分布在基因区域,170,669 个分布在基因间区域;检测到 107,521 个插入缺失,长度 2 -50 bp,包括 62,058 个插入和 45,463 个缺失;共有 1,413 个 SV,包括 1,212 个重复、163 个易位和 38 个倒位,大多数 SV 位于基因上游和下游 2 kb 处、内含子和基因间区域。
对 P. campanulata 基因组与其他 13 个物种的基因组进行了比较基因组分析,共检测到 74,894 个直系同源基因家族,包括 504,527 个基因,其中 7,893 个基因家族(包括 189,790 个基因)是核心基因。P. campanulata v2.0 基因组包含 1,198 个独特的基因家族。
使用来自 14 个物种的 177 个单拷贝直系同源基因构建了系统发育树,拟南芥作为外群。基于进化树完成物种分歧时间分析和基因家族的收缩与扩张分析。P. campanulata 和 P. avium在23.4Mya前分化,Cerasus 亚属和 Prunus 亚属之间的分歧发生在 30.5 Mya 左右。确定了在钟花樱上有 377 个基因家族扩展、 1,272 个基因家族收缩,分别影响 1,543 个和 1,473 个基因。
通过共线性分析说明 P. campanulata没有经历单独的WGD事件。
本文构建了首个钟花樱的T2T基因组,填补了蔷薇科植物T2T组装的空白,为研究端粒/着丝粒功能和基因组进化提供基础。结合多平台测序数据(HiFi+ONT+Hi-C),解决了高重复区域的组装难题。新注释基因和结构变异为分子育种(如花色、抗性改良)提供候选靶点。通过比较基因组学揭示了李属植物的基因组进化特征,为后续功能基因组学和分子育种研究奠定了重要基础。
如果觉得我的文章对您有用,请随意打赏。你的支持将鼓励我继续创作!