我们首先评估了通过 Seurat 方法 NormalizeData 和 ScaleData10 实现的对数转换和基因中心的常见归一化/缩放方法。由于每个细胞的 UMI 测序数量不同,因此 NormalizeData 将基因计数值除以每个细胞的读取计数总数,然后乘以缩放因子(默认为 10,000)。结果是将每个细胞缩放到总共 10k UMI,以避免样品中不同细胞类型不同测序深度的影响。然后,NormalizeData 添加伪计数 1(以避免转录零值),并获取每个计数的自然日志。通过这种方式,我们对细胞进行每个细胞测序深度的归一化,从而促进更相似的细胞间比较。然而,数据需要进一步缩放,以稳定基因表达水平和方差之间的关系。ScaleData 采用简单的基因水平居中和缩放,这意味着每个基因的均值中心为零,表达值按标准差缩放。生成的缩放值(z 分数)被裁剪为最大值(默认值为 10),以减少由少数细胞子集表达的异常高方差基因的影响。
SCTransform 使用正则化的负二项式模型对 UMI 计数进行建模,以消除由细胞条形码之间测序深度不同的引起的细胞间变化。为了实现这一目标,SCTransform 汇集了丰度相似的基因以获得稳定的参数估计值,从而防止全局缩放模型引起的过度拟合。通过这种方式,SCTransform 同时校正总 UMI 和平均表达对基因方差的影响。
https://www.biorxiv.org/content/10.1101/2021.08.18.456898v1.full
如果觉得我的文章对您有用,请随意打赏。你的支持将鼓励我继续创作!