TCGA突变数据可视化
Posted 医学统计园
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了TCGA突变数据可视化相关的知识,希望对你有一定的参考价值。
之前教程有提到TCGA中的突变数据,并对下载得到的突变数据进行了简单分析:。一图胜过万字,对于TCGA上给出的突变数据,我们还可以进一步对其进行可视化,统计分析不同癌症中基因的突变特征。
01
加载R包
使用maftools这个包对TCGA 突变数据进行可视化
if (!requireNamespace("BiocManager", quietly = TRUE))
install.packages("BiocManager")
BiocManager::install("maftools")
library(maftools)
注意:若R版本为3.5以下,不能使用biocmanager进行安装
02
MAF数据可视化
1. 数据预处理
首先需要对TCGA下载的maf文件进行简单处理(TCGA-LUAD,没错,是肺癌项目中的突变信息),首先获得其 1,2,3,4,5,6,7,8,9,10,11,12,13,16,37,42,72列,并命名为selected_result.maf文件。
注意:不是R语言,是使用shell脚本进行的提取,只要提取以上列即可
#数据预处理
cat TCGA.LUAD.muse.6f5cde97-d259-414f-8122-6d0d66f49b74.DR-10.0.somatic.maf|grep -v "#"|cut -f1,2,3,4,5,6,7,8,9,10,11,12,13,16,37,42,72 > selected_result.maf
2. 读入数据
将selected_result.maf数据读入R
laml = read.maf(maf = "selected_result_muse.maf")
#归纳不同样本中的突变信息
getSampleSummary(laml)
Tumor_Sample_Barcode Missense_Mutation Nonsense_Mutation Nonstop_Mutation Splice_Site Translation_Start_Site total
1: TCGA-17-Z031-01A-01W-0746-08 1695 125 1 50 2 1873
2: TCGA-78-7155-01A-11D-2036-08 1131 79 2 40 3 1255
3: TCGA-L9-A7SV-01A-11D-A397-08 1110 102 4 33 2 1251
4: TCGA-05-4382-01A-01D-1931-08 1100 94 2 46 2 1244
5: TCGA-55-8506-01A-11D-2393-08 1099 83 1 39 4 1226
#归纳每个基因的突变
getGeneSummary(laml)
Hugo_Symbol Missense_Mutation Nonsense_Mutation Nonstop_Mutation Splice_Site Translation_Start_Site total MutatedSamples
1: TTN 475 23 0 9 0 507 229
2: TP53 159 46 0 16 0 221 216
3: MUC16 320 26 0 3 0 349 207
4: RYR2 273 20 0 9 0 302 191
5: CSMD3 267 30 0 8 0 305 190
03
可视化结果
3.1 突变概览
对数据进行作图,相当简单
#plot a summary of MAF
plotmafSummary(maf = laml, rmOutlier = TRUE, addStat = 'median',
dashboard = T, titvRaw = FALSE)
Variant classification 559例肺癌患者中突变的类型,主要是Missense_mutation
Variant type 该maf文件中主要就是SNP,无insert 或delet
SNV class 类似cosmic中mutation signature,在肺癌中C>A的突变发生频率最高,其次是C>T
Variants per sample 每个样本中的突变信息
Variant classification summary 不同类型突变的分布
Top10 mutated genes 在559例肺癌患者中,突变频率较高的前10例genes
3.2 mutated genes 突变信息
绘制前10例genes在所有样本中的信息突变信息
#We will draw oncoplots for top ten mutated genes(包括基因的突变类型)
oncoplot(maf = laml, top = 10, fontSize = 12)
3.3 单基因突变信息
绘制单个基因的详细突变信息
lollipopPlot(maf = laml, gene = 'TTN',
AACol = 'HGVSp_Short', showMutationRate = TRUE)
3.4 突变基因频率图
有些类似之前讲的词云(),在这里用来显示基因突变频率高低
#wordcloud
geneCloud(input = laml, minMut = 80)
以上是对TCGA中肺癌突变数据进行可视化,采用同样的方法,你还可以对其他癌症的突变数据进行分析。更进一步的学习,可以参考maftools的官方文档。以上代码和数据均可在粉丝群下载。
以上是关于TCGA突变数据可视化的主要内容,如果未能解决你的问题,请参考以下文章