TCGA数据库中临床样品编号详解(Barcode)

TCGA数据库中样品编号详解(Barcode)


接触和分析过TCGA数据的朋友肯定会经常处理TCGA barcode的7个编码信息,每个编码信息用横杠-隔开,如下所示:

attachments-2019-10-vrxOVRGg5db01cb538588.png第一次分析TCGA数据看着这么长的样品编号感觉很是难以理解(例如:TCGA-3M-AB46-01A-11D-A410-08,TCGA-3M-AB47-01A-22D-A410-08,TCGA-B7-5816-01A-21D-1600-08,TCGA-B7-5818-01A-11D-1600-08),但是这个编号里面又蕴含了很多关于样品来源的信息,如果了解样品编号原则,就可以很好的区分样品,有利于数据的分析与处理。

之所以有这么复杂的样品编号是因为: 不同的数据之间需要关联,同一个病人有多种数据,甚至一种数据也有多个,比如转录组数据某病人就有癌症和癌旁,还有芯片数据,甲基化数据,SNP突变数据等等都需要用ID来进行关联和区分。


TCGA数据处理过程

要想充分理解样品barcode的编码规律,就要先从BCR处理样品的过程说起:

attachments-2019-10-GsWgTC2X5db01f6b90dda.png

图中总结了TCGA中从样品到数据处理流程:

BCR从TSS收到参与者的样本和他们相关的元数据。然后BCRs分配人可读的IDs(barcode,也就是TCGA barcode给参与者的元数据和样本。TCGA barcode用来把扩展到整个TCGA网络中的数据联系在一起,因为IDs可以唯一识别一个特定样本的一组结果。关于BCR TSS等组织机构信息见:https://www.omicsclass.com/article/1077


barcode编码各部分介绍:

attachments-2019-10-vrxOVRGg5db01cb538588.png


Label Identifier for 解释
Project Project name 来自哪个项目: 如TCGA、TARGET等等
TSS Tissue source site 样品来自哪个组织机构:01 代表International Genomics Consortium, 更多见:TSS
Participant Study participant 样品唯一编号(可以理解为一个病人唯一编号)
Sample Sample type 样品来自人体组织类型,如:01代表Primary Solid Tumor, 更多见:SampleType
Vial Order of sample in a sequence of samples 一份样品被分割成好几份,表示第几份,通常是A-Z编号
Portion Order of portion in a sequence of 100-120 mg sample portions 每份样品再分割成不同的小样品:01-99等等编号,代表第几份
Analyte Molecular type of analyte for analysis 实验数据来源分子类型,如R代表 RNA,D代表DNA等等,更多见:Portion / Analyte Codes
Plate Order of plate in a sequence of 96-well plates 96孔序列中板的顺序,4个数字组成
Center Sequencing or characterization center that will receive the aliquot for analysis 数据由哪个机构分析:如 01代表The Broad Institute GCC,更多见:Center


更多barcode类型总结:


上面提到的barcode编码,只是barcode的一种组织类型,更多类型的barcode见下图,一个病人除了他的组织样编号,还有他的临床信息编号,如,用药,化疗信息等等,这些编号的共同点是前面的TSS标号,Participant编号是一致的。


attachments-2019-10-xXWjNJiO5db0628c52858.png

下表显示了不同barcode,所代表的不同意义:层次结构级别:

attachments-2019-10-6E4Qs0wy5db0658eb0c6b.png

我觉得区分样品最总要的就是以下几部分,大家觉得呢?


attachments-2019-10-BwuacNr25db066238c07e.png

延伸阅读

  1. GEO数据库挖掘—WGCNA鉴定骨肉瘤转移相关基因

  2. GEO、TCGA多数据库联合挖掘胰腺导管腺癌预后关键基因

  3. TCGA数据库挖掘-肾细胞癌相关biomiarker筛选案例解析

  4. 文献精读-TCGA数据挖掘生物信息文章(肺鳞癌)

  5. 文献精读-GEO数据挖掘生物信息文章(宫颈癌)

  6. GEO数据挖掘直肠

  7. KM-plotter在线做生存分析

  8. GEO数据如何挖掘?案例解析!

  9. 免费领取生信课程(适合小白自学生信)《Linux生信分析环境搭建Bio-linux》

  10. 细述ceRNA网络研究思路

  11. TCGA数据挖掘文章-分析ceRNA的“套路”


    更多生物信息课程:

    1. 文章越来越难发?是你没发现新思路,基因家族分析发2-4分文章简单快速,学习链接:基因家族分析实操课程基因家族文献思路解读

    2. 转录组数据理解不深入?图表看不懂?点击链接学习深入解读数据结果文件,学习链接:转录组(有参)结果解读转录组(无参)结果解读

    3. 转录组数据深入挖掘技能-WGCNA,提升你的文章档次,学习链接:WGCNA-加权基因共表达网络分析

    4. 转录组数据怎么挖掘?学习链接:转录组标准分析后的数据挖掘转录组文献解读

    5. 微生物16S/ITS/18S分析原理及结果解读OTU网络图绘制cytoscape与网络图绘制课程

    6. 生物信息入门到精通必修基础课:linux系统使用biolinux搭建生物信息分析环境linux命令处理生物大数据perl入门到精通perl语言高级R语言画图R语言快速入门与提高python语言入门到精通

    7. 医学相关数据挖掘课程,不用做实验也能发文章:TCGA-差异基因分析GEO芯片数据挖掘 GEO芯片数据不同平台标准化 、GSEA富集分析课程TCGA临床数据生存分析TCGA-转录因子分析TCGA-ceRNA调控网络分析

    8.其他,二代测序转录组数据自主分析NCBI数据上传二代fastq测序数据解读

    9.全部课程可点击:组学大讲堂视频课程

  • 发表于 2019-10-23 17:26
  • 阅读 ( 2719 )
  • 分类:TCGA

0 条评论

请先 登录 后评论
omicsgene
omicsgene

生物信息

346 篇文章

作家榜 »

  1. omicsgene 346 文章
  2. 安生水 217 文章
  3. Daitoue 167 文章
  4. 生物女学霸 120 文章
  5. CORNERSTONE 72 文章
  6. 红橙子 50 文章
  7. 生信老顽童 48 文章
  8. landy 37 文章