数据挖掘专题 | 一文搞懂TCGA数据整理

Posted 科研小助手

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了数据挖掘专题 | 一文搞懂TCGA数据整理相关的知识,希望对你有一定的参考价值。

精彩不容错过,点击科研小助手↑↑↑免费订阅

本文经授权转载自生信控

前期相关文章阅读


我们已经通过前两期 和 介绍了TCGA数据下载方法,并最终得到每个样本一个独立文件夹形式的数据,整理成表达矩阵的格式将是后续分析的前提,对TCGA数据的整理主要有2个操作:

1、将样本名替换成类似 TCGA-AA-A02J-01A 的格式;

2、多样本表达值合并;


关于TCGA样本命名,详见 

https://wiki.nci.nih.gov/display/TCGA/TCGA+barcode 【不知道 -01A 和 -11A 的先看这个】

多样本表达值合并只需要将每个文件夹下文本列合并即可,接下来我们重点讲解下如何重置样本名,比较容易想到的是,我们需要一个同时包含文件名及样本名的文件,所以本期将为大家介绍 中抛出的第二个问题,下载的Metadata的使用。


Metadata文件命名如metadata.cart.2017-*_*_*.json,是以json作为后缀类似文本的文件,记录着每个样本在数据库中的编号信息以及患者的部分临床信息,json文件中需要注意的几个事项:


1、文件打开如下,分号前是每个属性,分号后是属性值,如 "data_type": "miRNA Expression Quantification" 表示下载的是miRNA表达数据:

数据挖掘专题 | 一文搞懂TCGA数据整理


2、465个样本的信息全部记录在这一个文件中,故需要知道样本间的区分是以 },{ 分隔的:

数据挖掘专题 | 一文搞懂TCGA数据整理


3、每个样本有两个file_id,其中第二个与465个文件夹中的一致:

数据挖掘专题 | 一文搞懂TCGA数据整理


4、file_name 对应 file_id 文件夹下的表达数据文件:

数据挖掘专题 | 一文搞懂TCGA数据整理


5、此处的 submitter_id 即为常见的TCGA样本名:

数据挖掘专题 | 一文搞懂TCGA数据整理


综上,基于 file_id、file_name、submitter_id 即可完成表达数据文件与样本名称的对应,例如之前下载的TCGA-COAD的miRNA数据,TCGA_GDC/COAD/miRNA/f457196a-04ef-46f4-addc-3c698208f4d4/ac35e037-f717-401d-8021-a8e3a7b0b368.mirbase21.mirnas.quantification.txt,我们来详细看下这个目录结构。


f457196a-04ef-46f4-addc-3c698208f4d4 即为Metadata中的 file_idac35e037-f717-401d-8021-a8e3a7b0b368.mirbase21.mirnas.quantification.txt 即为Metadata中的 file_name,由此可通过json检索到其存储的样本对应的submitter_id 为 TCGA-AA-A00W-01A


思路理清之后就可以开始进行数据整理了,可以提取每个样本的原始count值,或者RPM值,最终格式如下:

数据挖掘专题 | 一文搞懂TCGA数据整理

样本共计465列,其中样本名:

1、以 -11A 结尾的8列,无重复,且均有对应的 -01A 样本;

2、以 -01A 结尾的445列,有4个样本重复,去重后还有441列,重复的样本:TCGA-A6-6650-01A;TCGA-A6-6781-01A;TCGA-A6-6780-01A;TCGA-A6-5656-01A

3、剩下的12列中,02表示是复发肿瘤、06表示转移,01B表示重复样本:

    数据挖掘专题 | 一文搞懂TCGA数据整理

其中3个样本 TCGA-AZ-4682-01B;TCGA-CK-4948-01B;TCGA-CK-4947-01B 无对应的 -01A 样本。


综上,case数为444个(441+3,可以理解为去重后-01A结尾样本的个数),数据初步整理后与数据下载时显示的Files数和Cases数一致!


对于重复样本(同一个患者/case,多个肿瘤样本/file),以患者TCGA-A6-6650为例,共有3个重复,分属下载的3个文件,共有同一个case_id:

数据挖掘专题 | 一文搞懂TCGA数据整理

不同的file_name,相同的case_id:

数据挖掘专题 | 一文搞懂TCGA数据整理

所以,我们会看到在下载数据的时候,files数要大于cases数,这就解释了我们在 中抛出的第一个问题!


目前对待重复样本,比较主流的方法是只保留一个:

数据挖掘专题 | 一文搞懂TCGA数据整理

数据挖掘专题 | 一文搞懂TCGA数据整理

数据挖掘专题 | 一文搞懂TCGA数据整理


所以在TCGA数据分析中,最常用的两类样本是 -01A 和 -11A 结尾的样本,分别代表肿瘤和正常样本,不同数字编码代表的意义,部分如下:

数据挖掘专题 | 一文搞懂TCGA数据整理

更多标识详见:https://gdc.cancer.gov/resources-tcga-users/tcga-code-tables/sample-type-codes


最终,我们将TCGA-COAD的miRNA表达数据整理成如下,1881个前体miRNA在449个样本中的表达值数据:


好像我们顺带又把  中抛出的第四、五这两个问题解决了~


各位读者:
科研小助手官方QQ群:93646661
添加微信号amateur_1988为好友,加入科研小助手官方微信群。申请加好友请备注姓名和单位。
↓↓↓点击阅读原文查看往期精彩!

以上是关于数据挖掘专题 | 一文搞懂TCGA数据整理的主要内容,如果未能解决你的问题,请参考以下文章

MyBatis缓存专题-一文彻底搞懂MyBatis一级缓存

MyBatis缓存专题-一文彻底搞懂MyBatis一级缓存

性能专题:一文搞懂性能测试常见指标

一文读懂时间序列专题学习手册

MyBatis缓存专题-一文彻底搞懂MyBatis二级缓存

一文搞懂 Prometheus 的直方图