TCGA数据库下载数量不对

问题一:按课上老师教的筛选方法,网页上cases和file数量为何不一致(456和521),老师课上是一致的。

attachments-2019-11-N6ByHWN45dd38e347a76e.png

attachments-2019-11-Yu9mMTD85dd38e47300f2.png


问题二:按老师的代码,样本总量不等于肿瘤+正常总和,为什么呢?

query <- GDCquery(project = "TCGA-COAD",data.category = "Transcriptome Profiling",data.type = "Gene Expression Quantification", workflow.type = "HTSeq - Counts",legacy = FALSE)

attachments-2019-11-SCgU916X5dd38e8201766.png

请先 登录 后评论

2 个回答

omicsgene - 生物信息
擅长:重测序,遗传进化,转录组,GWAS

case是癌症病人编号,有时候一个癌症病人取样时同时取了多个组织(例如原发癌组织,转移癌组织,血液对照等),后期做实验一个case 多个组织都可能有实验数据,因此会存在文件数多于case数的情况,属于正常。

请先 登录 后评论
jing

还有第二个问题:老师课上讲的代码样本文件总数等于肿瘤+正常总和,我的为什么不是呢?如图,我下载文件数521,正常41,肿瘤478.

请先 登录 后评论