前面我们介绍了TCGA临床信息的下载,但是由于临床信息字段比较多,不太好整理,所以TCGAbiolinks从中抽提了一些比较常用的字段,比如性别,年龄等。但是一些关于病人的用药信息,就没有放在临床信息里面。那如何下载这些临床信息呢? 我们以下载用药信息为例:
# 加载需要的包
library(SummarizedExperiment)
library(TCGAbiolinks)
###########################################################
# GDC: https://portal.gdc.cancer.gov/
###########################################################
# 设置程序参数
work_dir <- "/Users/zhangqiuxue/Downloads"
# 设置需要下载癌症对应的project 和数据类型
project <- "TCGA-GBM"
data_category <- "Clinical"
data_type <- "Clinical Supplement"
legacy <- FALSE
file_type = "xml"
# 设置工作目录
setwd(work_dir)
# 下载临床数据的结果
DataDirectory <- paste0(work_dir,"/GDC/",gsub("-","_",project))
# 查询可以下载的数据
query <- GDCquery(project = project,
data.category = data_category,
data.type = data_type,
file.type = file_type,
legacy = legacy)
# 该癌症总样品数量
samplesDown <- getResults(query,cols=c("cases"))
cat("Total Clinical sample to down:", length(samplesDown))
# 下载数据
GDCdownload(query = query,
directory = DataDirectory,files.per.chunk=6, method='client')
# 用专门的函数去整合下载好的数据
clinical <- GDCprepare_clinic(query, clinical.info = "drug",directory = DataDirectory)
# 将数据保存到文件,方便后面的进一步分析
clinical_file <- paste0(DataDirectory, "_","clinical",".txt")
write.csv(clinical, file = clinical_file, row.names = F, quote = F)
其中的关键就是设置:
file_type = "xml"
clinical.info = "drug"
如果您想学习TCGA数据挖掘,请学习的我TCGA系列课程:
如果觉得我的文章对您有用,请随意打赏。你的支持将鼓励我继续创作!