绘制差异基因kegg注释图

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了绘制差异基因kegg注释图相关的知识,希望对你有一定的参考价值。

参考技术A “差异基因kegg注释图”是转录组分析结果的重要组成部分,能够帮助大家了解差异基因分属于哪些代谢通路,文章中如果能够插入下面这类图来说明样品间的差异,一定会为你的文章增色不少。

下面给大家介绍一下如何在Windows下对差异基因进行kegg注释。

一、输入数据准备:

首先要准备的是各比较组(比如CK1比上Treat1)的差异基因列表,一般公司做完的标准分析结果里已经包含这部分内容了,通常在“DEG_Analysis”文件夹里,我们用到的信息是“ 基因ID ”和“ regulated ”(up代表上调,down代表下调)两列,如下图所示的第一列和最后一列:

接下来需要添加一列,将“regulated”里的“up”标记成“red”,“down”标记成“green”,这样后面做出来的kegg注释图里上调基因就会显示为红色,下调基因显示为绿色。具体方法是在第三列插入一个“ if ”函数,当第二列值为“up”时输出“red”,否则输出“green”,参数设置详见下图:

这样C2单元格就会显示为“red”,双击该单元格右下角,这样C列就都按上面的规则填充好了,如下图所示:

二、在作图网站填入数据:

打开网站:https://www.genome.jp/kegg/tool/map_pathway2.html

按照下方设置好参数,并将第一步准备好的Excel表里的第一和第三列数据粘贴进去(注意:Excel表的 第一行 和 第二列 都不用粘贴),点击左下角的“exec”按钮开始运算。根据您提交的基因数量,等待一小段时间结果就出来了:

注释到的代谢通路结果,按数量排序:

点击其中的代谢通路链接,就能够看出该代谢通路中哪些基因上调、哪些基因下调了。

好的,这样差异基因的kegg注释就完成了。掌握之后,便可在几分钟之内做任意差异基因列表的kegg注释图而不用找公司了!

1. 文章越来越难发?是你没发现新思路,基因家族分析发2-4分文章简单快速,学习链接: 基因家族分析实操课程 、 基因家族文献思路解读

2. 转录组数据理解不深入?图表看不懂?点击链接学习深入解读数据结果文件,学习链接: 转录组(有参)结果解读 ; 转录组(无参)结果解读

3. 转录组数据深入挖掘技能-WGCNA,提升你的文章档次,学习链接: WGCNA-加权基因共表达网络分析

4. 转录组数据怎么挖掘?学习链接: 转录组标准分析后的数据挖掘 、 转录组文献解读

5. 微生物16S/ITS/18S分析原理及结果解读 、 OTU网络图绘制 、 cytoscape与网络图绘制课程

6. 生物信息入门到精通必修基础课,学习链接: linux系统使用 、 perl入门到精通 、 perl语言高级 、 R语言画图

7. 医学相关数据挖掘课程,不用做实验也能发文章,学习链接: TCGA-差异基因分析 、 GEO芯片数据挖掘 、 GSEA富集分析课程 、 TCGA临床数据生存分析 、 TCGA-转录因子分析 、 TCGA-ceRNA调控网络分析

8.其他课程链接: 二代测序转录组数据自主分析 、 NCBI数据上传 、 二代测序数据解读 。

GO、KEGG富集分析(一)有参情况

参考技术A

对基因的描述一般从三个层面进行:

这三个层面具体是指:

得到GO注释

做GO分析的思路:

比如,在疾病研究的时候,进行药物治疗之后某些基因的表达量明显的发生了变化,拿这些基因去做GO分析发现在Biological process过程当中集中在RNA修饰上,然后在此基础上继续进行挖掘。这个例子就是想启示大家拿到差异表达基因DEG只是一个开始,接下来就应该去做GO注释,之后需要进行一个分析看这些注释主要集中在哪个地方。假如我们有100个差异表达基因其中有99个都集中在细胞核里,那我们通过GO分析就得到了一个显著的分布。

GO富集分析原理:
有一个term注释了100个差异表达基因参与了哪个过程,注释完之后(模式生物都有现成的注释包,不用我们自己注释),计算相对于背景它是否显著集中在某条通路、某一个细胞学定位、某一种生物学功能。

clusterProfiler是一个功能强大的R包,同时支持GO和KEGG的富集分析,而且可视化功能非常的优秀,本章主要介绍利用这个R包来进行Gene Ontology的富集分析。
进行GO分析时,需要考虑的一个基础因素就是基因的GO注释信息从何处获取。Bioconductor上提供了以下19个物种的Org类型的包,包含了这些物种的GO注释信息

对于以上19个物种,只需要安装对应的org包,clusterProfile就会自动从中获取GO注释信息,我们只需要差异基因的列表就可以了,使用起来非常方便。

1.1 准备输入数据
待分析的数据就是一串基因名称了,可以是ensembl id、entrze id或者symbol id等类型都可以。把基因名称以一列的形式排开,放在一个文本文件中(例如命名“gene.txt”)。Excel中查看,就是如下示例这种样式。

1.3 GO富集分析
加载了注释库之后,读取基因列表文件,并使用clusterProfiler的内部函数enrichGO()即可完成GO富集分析。

读取基因列表文件,并使用clusterProfiler的内部函数enrichKEGG()即可完成KEGG富集分析。

此外,clusterProfiler中也额外提供了一系列的可视化方案用于展示本次富集分析结果,具有极大的便利。

参考:
https://www.jianshu.com/p/47b5ea646932?utm_source=desktop&utm_medium=timeline

以上是关于绘制差异基因kegg注释图的主要内容,如果未能解决你的问题,请参考以下文章

GO、KEGG富集分析(一)有参情况

kegg数据库和geo数据库区别

GO/KEGG功能富集分析及气泡图

学徒数据挖掘第二期汇总之多分组基因注释代码大放送

快来看看如何使用R语言绘制一张漂亮的火山图

如何使用KAAS进行KEGG注释