TCGA数据库中临床样品编号详解（Barcode）

TCGA数据库中样品编号详解（Barcode）

接触和分析过TCGA数据的朋友肯定会经常处理TCGA barcode的7个编码信息，每个编码信息用横杠-隔开，如下所示：

第一次分析TCGA数据看着这么长的样品编号感觉很是难以理解(例如：TCGA-3M-AB46-01A-11D-A410-08,TCGA-3M-AB47-01A-22D-A410-08,TCGA-B7-5816-01A-21D-1600-08,TCGA-B7-5818-01A-11D-1600-08)，但是这个编号里面又蕴含了很多关于样品来源的信息，如果了解样品编号原则，就可以很好的区分样品，有利于数据的分析与处理。

之所以有这么复杂的样品编号是因为: 不同的数据之间需要关联，同一个病人有多种数据，甚至一种数据也有多个，比如转录组数据某病人就有癌症和癌旁，还有芯片数据，甲基化数据，SNP突变数据等等都需要用ID来进行关联和区分。

TCGA数据处理过程

要想充分理解样品barcode的编码规律，就要先从BCR处理样品的过程说起：

图中总结了TCGA中从样品到数据处理流程：

BCR从TSS收到参与者的样本和他们相关的元数据。然后BCRs分配人可读的IDs（barcode），也就是TCGA barcode给参与者的元数据和样本。TCGA barcode用来把扩展到整个TCGA网络中的数据联系在一起，因为IDs可以唯一识别一个特定样本的一组结果。关于BCR TSS等组织机构信息见：https://www.omicsclass.com/article/1077

barcode编码各部分介绍:

Label	Identifier for	解释
Project	Project name	来自哪个项目: 如TCGA、TARGET等等
TSS	Tissue source site	样品来自哪个组织机构：01 代表International Genomics Consortium, 更多见：TSS
Participant	Study participant	样品唯一编号(可以理解为一个病人唯一编号）
Sample	Sample type	样品来自人体组织类型，如：01代表Primary Solid Tumor，更多见：SampleType
Vial	Order of sample in a sequence of samples	一份样品被分割成好几份，表示第几份，通常是A-Z编号
Portion	Order of portion in a sequence of 100-120 mg sample portions	每份样品再分割成不同的小样品：01-99等等编号，代表第几份
Analyte	Molecular type of analyte for analysis	实验数据来源分子类型，如R代表 RNA，D代表DNA等等，更多见：Portion / Analyte Codes
Plate	Order of plate in a sequence of 96-well plates	96孔序列中板的顺序，4个数字组成
Center	Sequencing or characterization center that will receive the aliquot for analysis	数据由哪个机构分析：如 01代表The Broad Institute GCC,更多见：Center