IF=11.8| 钟花樱的端粒到端粒基因组揭示了樱花亚属的基因组进化

2025年2月 GigaScience杂志发表了一篇题为“The telomere-to-telomere genome of flowering cherry (Prunus campanulata) reveals genomic evolution of the subgenus Cerasus”的基因组组装文章...

2025年2月 GigaScience杂志发表了一篇题为“The telomere-to-telomere genome of flowering cherry (Prunus campanulata) reveals genomic evolution of the subgenus Cerasus”的基因组组装文章。

研究背景

Prunus campanulata(钟花樱桃)是一种具有重要观赏和遗传价值的樱桃品种,具有早花、花色鲜艳、抗病性强、自交亲和等优良性状,且基因组较小(2n=16),是研究樱桃基因组的理想模型。

T2T基因组组装技术能够填补传统基因组组装中的缺口,解析高度重复区域(如端粒、着丝粒),为基因组结构、基因功能和进化研究提供更完整的参考。

分析结果

01.基因组组装

结合PacBio HiFi、Oxford Nanopore超长读长(ONT)、Illumina短读长和Hi-C染色质构象捕获技术,生成高质量基因组数据。最终的基因组大小为 266.23 Mb,锚定在8个染色体上,N50=31.6Mb,BUSCO完整度为98.9%,QV序列一致性打分为48.75。

attachments-2025-05-0YB6BEoD68397a068e465.png

02. 基因组注释

(1)重复序列注释

方法: LTR_Finder和 LTR_retriever  识别非冗余的长末端重复序列; RepeatModeler 全局预测。以上软件的结果作为数据库,和Repbase合并,利用RepeatMasker 使用该库来预测整个基因组中的重复序列。此外还使用RepeatProteinMask进行TE蛋白预测。

结果:共鉴定出 130.84 Mb 的重复序列,占整个基因组的 49.14%。其中含有23.92% 的 LTR 反转录转座子、15.47% 的 DNA 转座子、4.63% 的长穿梭核元件、0.47% 的短穿梭核元件和 7.01% 未表征的 TE

(2)结构重复注释

端粒:使用 Winnowmap把ONT比对到基因组上,把比对到每条染色体末端50bp的序列提取出来,计算了read中端粒重复序列的频率。端粒重复次数最多的读取被指定为参考,其他读取被指定为查询。medaka_consensus用来重新组装基因组和端粒序列,从而产生共有序列。使用 MUMmer 将该共有序列与每条染色体进行比对,用最佳比对结果替换掉末端端粒序列。利用端粒重复作为查询,成功鉴定了位于 8 条染色体末端的 13 个端粒。

着丝粒:利用TRF和着丝粒区域中低密度基因分布的独特特征,基于BEDTools 来计算10kb窗口内的 TRF和基因覆盖率。和 Hi-C 相互作用热图、大空白区域、低基因密度区域和高 LTR/Gypsy 密度区域整合,预测了染色体内的 8 个着丝粒区域,长度范围为 1.98 至 2.99 Mb。

attachments-2025-05-PNZUqunt68397a5378e0a.png

(3)nc RNA

使用 tRNAscan-SE 鉴定了基因组中的转移 RNA ,使用 rRNA 数据库预测核糖体 RNA,并使用 Infernal v1.1.2基于 Rfam 数据库注释snRNA 和 microRNA 。总共鉴定了 2,414 个非编码 RNA,包括 287 个 miRNA、668 个 tRNA、886 个 rRNA 和 573 个 snRNA。

(4)基因结构注释

从头 、基于同源和转录组预测方法的组合,鉴定了 28,961 个蛋白质编码基因。转录本、编码序列 (CDS)、外显子和内含子的平均长度分别约为 3,724 bp、1,141 bp、320 bp 和 523 bp,每个基因平均有 5.02 个外显子。96.45%的基因起码在一个功能数据库中被注释到。BUSCO 分析显示,完整度为98.2%。

attachments-2025-05-Z1nydZ3L68397a9bd8349.png

03. 基因组之间的比较

把自己的组装和此前的V1.0版本组装进行比较,有 270.82 Mb (97.5%) 的共线区。在共线性区域内鉴定了336,943 个单核苷酸多态性 (SNP),其中 166,274 个分布在基因区域,170,669 个分布在基因间区域;检测到 107,521 个插入缺失,长度 2 -50 bp,包括 62,058 个插入和 45,463 个缺失;共有 1,413 个 SV,包括 1,212 个重复、163 个易位和 38 个倒位,大多数 SV 位于基因上游和下游 2 kb 处、内含子和基因间区域。

attachments-2025-05-Pu7KB84d68397ac21be93.png

04.比较基因组分析

对 P. campanulata 基因组与其他 13 个物种的基因组进行了比较基因组分析,共检测到 74,894 个直系同源基因家族,包括 504,527 个基因,其中 7,893 个基因家族(包括 189,790 个基因)是核心基因。P. campanulata v2.0 基因组包含 1,198 个独特的基因家族。

使用来自 14 个物种的 177 个单拷贝直系同源基因构建了系统发育树,拟南芥作为外群。基于进化树完成物种分歧时间分析和基因家族的收缩与扩张分析。P. campanulata 和 P. avium在23.4Mya前分化,Cerasus 亚属和 Prunus 亚属之间的分歧发生在 30.5 Mya 左右。确定了在钟花樱上有 377 个基因家族扩展、 1,272 个基因家族收缩,分别影响 1,543 个和 1,473 个基因。

通过共线性分析说明 P. campanulata没有经历单独的WGD事件。

attachments-2025-05-iwVhUnp668397ade37b22.png

总结

本文构建了首个钟花樱的T2T基因组,填补了蔷薇科植物T2T组装的空白,为研究端粒/着丝粒功能和基因组进化提供基础。结合多平台测序数据(HiFi+ONT+Hi-C),解决了高重复区域的组装难题。新注释基因和结构变异为分子育种(如花色、抗性改良)提供候选靶点。通过比较基因组学揭示了李属植物的基因组进化特征,为后续功能基因组学和分子育种研究奠定了重要基础。

  • 发表于 2025-05-30 17:35
  • 阅读 ( 152 )
  • 分类:文献解读

你可能感兴趣的文章

相关问题

0 条评论

请先 登录 后评论
Ti Amo
Ti Amo

61 篇文章

作家榜 »

  1. omicsgene 722 文章
  2. 安生水 360 文章
  3. Daitoue 167 文章
  4. 生物女学霸 120 文章
  5. xun 88 文章
  6. rzx 85 文章
  7. 红橙子 81 文章
  8. CORNERSTONE 72 文章