TCGA数据下载

TCGAbiolinks 下载 TCGA 数据

下载TCGA数据的方式有很多,大致可以分成3类:

1. 采用GDC 工具去下载: 这个其实挺麻烦的,下载后的数据还要合并,不同的数据合并方式还不一样,需要些不少的代码。

2. 从Broad 研究所的Firehose 去下载整理好的数据,但是这个数据都比较陈旧。

3. 采用R包去下载: 目前一些R包,能对GDC的工具和API进行了很好的封装,简化了操作过程,而且当GDC进行了升级时,R包也会及时更新,所以这种方式下载数据是一个比较理想的方式。

#  加载需要的包

library(SummarizedExperiment)
library(TCGAbiolinks)

###########################################################
# GDC: https://portal.gdc.cancer.gov/
###########################################################

# 设置环境参数
work_dir <- "/Users/zhangqiuxue/Lab/TCGA/TCGAbiolinks" 

# 设置程序参数
project <- "TCGA-STAD"
data_category <- "Transcriptome Profiling"
data_type <- "Gene Expression Quantification"
workflow_type <- "HTSeq - Counts"
legacy <- FALSE


# 设置工作目录
setwd(work_dir)

# 下载基因表达量,count数格式的结果
DataDirectory <- paste0(work_dir,"/GDC/",gsub("-","_",projects))
FileNameData <- paste0(DataDirectory, "_","Gene_HTSeq_Counts",".rda")

# 查询可以下载的数据
query <- GDCquery(project = project,
                  data.category = data_category,
                  data.type = data_type, 
                  workflow.type = workflow_type,
                  legacy = legacy)

# 该癌症总样品数量
samplesDown <- getResults(query,cols=c("cases"))
cat("Total sample to down:", length(samplesDown))

# TP 样品数量
dataSmTP <- TCGAquery_SampleTypes(barcode = samplesDown, typesample = "TP")
cat("Total TP samples to down:", length(dataSmTP))

# NT 样本数量
dataSmNT <- TCGAquery_SampleTypes(barcode = samplesDown,typesample = "NT")
cat("Total NT samples to down:", length(dataSmNT))


# 下载数据, 数据比较大,耐心等待
GDCdownload(query = query,
            directory = DataDirectory)

# 保存结果,方便后面使用
data <- GDCprepare(query = query, 
                       save = TRUE, 
                       directory =  DataDirectory,
                       save.filename = FileNameData)

# 表达量提取,保存到文件
data_expr <- assay(data)
dim(data_expr)
gene_expr_file <- paste0(DataDirectory, "_","Gene_HTSeq_Counts",".txt")
write.table(data_expr, file = gene_expr_file, sep="\t", row.names =T, quote = F)

除了下载数据,TCGAbiolinks 还集成了差异分析,生存分析等功能,有兴趣的朋友可以去尝试一下。


如果你对TCGA数据挖掘有兴趣的话,可以学习我们的TCGA相关课程。

TCGA-基因差异表达分析

TCGA-生存分析

TCGA-转录因子调控

TCGA-ceRNA调控网络分析

  • 发表于 2018-05-25 10:30
  • 阅读 ( 4344 )
  • 分类:TCGA

0 条评论

请先 登录 后评论
microRNA
microRNA

115 篇文章

作家榜 »

  1. omicsgene 657 文章
  2. 安生水 327 文章
  3. Daitoue 167 文章
  4. 生物女学霸 120 文章
  5. 红橙子 78 文章
  6. CORNERSTONE 72 文章
  7. rzx 67 文章
  8. xun 66 文章