TCGA突变数据可视化

Posted 医学统计园

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了TCGA突变数据可视化相关的知识,希望对你有一定的参考价值。


之前教程有提到TCGA中的突变数据,并对下载得到的突变数据进行了简单分析:一图胜过万字,对于TCGA上给出的突变数据,我们还可以进一步对其进行可视化,统计分析不同癌症中基因的突变特征。




01

加载R包


使用maftools这个包对TCGA 突变数据进行可视化

if (!requireNamespace("BiocManager", quietly = TRUE)) install.packages("BiocManager")BiocManager::install("maftools")library(maftools)

注意:若R版本为3.5以下,不能使用biocmanager进行安装




02

MAF数据可视化


1. 数据预处理

首先需要对TCGA下载的maf文件进行简单处理(TCGA-LUAD,没错,是肺癌项目中的突变信息),首先获得其 1,2,3,4,5,6,7,8,9,10,11,12,13,16,37,42,72列,并命名为selected_result.maf文件。

注意:不是R语言,是使用shell脚本进行的提取,只要提取以上列即可

#数据预处理cat TCGA.LUAD.muse.6f5cde97-d259-414f-8122-6d0d66f49b74.DR-10.0.somatic.maf|grep -v "#"|cut -f1,2,3,4,5,6,7,8,9,10,11,12,13,16,37,42,72 > selected_result.maf

2. 读入数据

将selected_result.maf数据读入R 

laml = read.maf(maf = "selected_result_muse.maf")#归纳不同样本中的突变信息getSampleSummary(laml) Tumor_Sample_Barcode Missense_Mutation Nonsense_Mutation Nonstop_Mutation Splice_Site Translation_Start_Site total 1: TCGA-17-Z031-01A-01W-0746-08 1695 125 1 50 2 1873 2: TCGA-78-7155-01A-11D-2036-08 1131 79 2 40 3 1255 3: TCGA-L9-A7SV-01A-11D-A397-08 1110 102 4 33 2 1251 4: TCGA-05-4382-01A-01D-1931-08 1100 94 2 46 2 1244 5: TCGA-55-8506-01A-11D-2393-08 1099 83 1 39 4 1226#归纳每个基因的突变getGeneSummary(laml) Hugo_Symbol Missense_Mutation Nonsense_Mutation Nonstop_Mutation Splice_Site Translation_Start_Site total MutatedSamples 1: TTN 475 23 0 9 0 507 229 2: TP53 159 46 0 16 0 221 216 3: MUC16 320 26 0 3 0 349 207 4: RYR2 273 20 0 9 0 302 191 5: CSMD3 267 30 0 8 0 305 190




03

可视化结果


3.1 突变概览

对数据进行作图,相当简单

#plot a summary of MAF plotmafSummary(maf = laml, rmOutlier = TRUE, addStat = 'median',               dashboard = T, titvRaw = FALSE)

TCGA突变数据可视化

  • Variant classification 559例肺癌患者中突变的类型,主要是Missense_mutation

  • Variant type  该maf文件中主要就是SNP,无insert 或delet

  • SNV class 类似cosmic中mutation signature,在肺癌中C>A的突变发生频率最高,其次是C>T

  • Variants per sample 每个样本中的突变信息

  • Variant classification summary  不同类型突变的分布

  • Top10 mutated genes 在559例肺癌患者中,突变频率较高的前10例genes


3.2 mutated genes 突变信息

绘制前10例genes在所有样本中的信息突变信息

#We will draw oncoplots for top ten mutated genes(包括基因的突变类型)oncoplot(maf = laml, top = 10, fontSize = 12)

TCGA突变数据可视化

3.3 单基因突变信息

绘制单个基因的详细突变信息

lollipopPlot(maf = laml, gene = 'TTN',  AACol = 'HGVSp_Short', showMutationRate = TRUE)


3.4 突变基因频率图

有些类似之前讲的词云(),在这里用来显示基因突变频率高低

#wordcloudgeneCloud(input = laml, minMut = 80)

以上是对TCGA中肺癌突变数据进行可视化,采用同样的方法,你还可以对其他癌症的突变数据进行分析。更进一步的学习,可以参考maftools的官方文档。以上代码和数据均可在粉丝群下载。

以上是关于TCGA突变数据可视化的主要内容,如果未能解决你的问题,请参考以下文章

TCGA一些数据库

ComplexHeatmap|根据excel表绘制突变景观图(oncoplot)

肿瘤突变数据可视化神器-maftools

使用后续突变和缺失片段中继 commitUpdate 回调

使用R语言下载TCGA数据库癌症基因表达数据小例子

能够使用相同的字段扩展所有 Apollo/GraphQL 突变。通缉“通用片段”