泛基因组工具: Roary, panX, PEPPAN, PGAP

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了泛基因组工具: Roary, panX, PEPPAN, PGAP相关的知识,希望对你有一定的参考价值。

参考技术A

引用文章
标题: Insights on the Evolutionary Genomics of the Blautia Genus: Potential New Species and Genetic Content Among Lineages
中文:Blautia菌基因组进化分析
杂志:Front. Microbiol.
时间:2021.4

该文章分析之一:使用三种泛基因组方法同时处理一批菌株基因组

稀释曲线分析

KEGG module注释

泛基因组分析
1 输入文件由prokka生成
2 Roary PEPPAN使用gff文件,panX使用genebank文件

3 PEPPAN.gene_content.curve生成稀释曲线输入数据,pandas matplotlib绘制曲线
4 panX geneCluster.json和pandas生成基因presence absence矩阵
5 R micropan估计泛基因组openness/closedness

三种方法的结果

文章:Roary: rapid large-scale prokaryote pan genome analysis. bioinformatics 2015
引用:1780
GITHUB: http://sanger-pathogens.github.io/Roary/
Tutorial: https://github.com/microgenomics/tutorials/blob/master/pangenome.md

文章:panX: microbial pan-genome analysis and exploration. Nucleic acids research, 2018
引用:131
GITHUB: https://github.com/neherlab/pan-genome-analysis
conda git安装:

文章:Accurate reconstruction of bacterial pan- and core genomes with PEPPAN. Genome Res. 2020
引用:5
GITHUB: https://github.com/zheminzhou/PEPPAN

地址: http://pgaweb.vlcc.cn/
PGAP本地: https://sourceforge.net/projects/pgap/

PGAP: pan-genomes analysis pipeline.Bioinformatics,2012
被引:328
PanGP: a tool for quickly analyzing bacterial pan-genome profile.Bioinformatics,2014
被引:95
PGAP-X: Extension on pan-genome analysis pipeline.BMC Genomics,2018
被引:18
PGAweb: A Web Server for Bacterial Pan-Genome Analysis.Front Microbiol,2018
被引:15

PGAweb在线使用 - 测试数据

1 使用example gbk数据:输入文件格式

2 参数:identity 0.8,其他默认

3 运行等待结果

PGAP本地使用

1 软件获取

sourceforge: https://sourceforge.net/projects/pgap/

Pangenome

生信和数据挖掘必备:一款超好用的基因组分析工具网站!



编辑:小怡

本文为小狗科研平台原创,转载请在【后台】留言



目前,很多科研工作者热衷于做肿瘤研究,利用生物信息学和数据挖掘方法,如GEO,TCGA等,做到不用做实验,也能发SCI文章。


本文介绍一款适用于肿瘤基因组分析的在线网站:GSCALite

(链接:http://bioinfo.life. hust.edu.cn/web/GSCALite/


GSCALite是一个肿瘤基因组分析平台,该平台整合了来自TCGA库的33种肿瘤类型的基因组数据,GDSC,CTRP的药物反应数据,以及来自GTEX的正常组织数据,用于统一的数据分析流程中的基因组分析。待分析完成后,数据和结果的可以从官网直接下载。


该工具网站是华中科技大学生命科学学院的郭安源团队开发的,用于基因组癌症分析,相关介绍发表在《Bioinformatics》杂志上。


生信和数据挖掘必备:一款超好用的基因组分析工具网站!

图片来源于《Bioinformatics》官网



生信和数据挖掘必备:一款超好用的基因组分析工具网站!

图片来源于网站


该网站提供的分析的基因集有:
1)miRNA: 差异表达和生存分析

2)SNV:统计学,分布,类型及其生存意义

3)CNV:杂合/纯合 CNV缺失/扩增的统计资料

4)甲基化:甲基化影响生存和表达

5)肿瘤通路活性:10种癌症通路的活性

6)miRNA网络:通过miRNA的基因调控网络

7)药物分析:表达与药物敏感性的相关(IC50)

8)GTEx: 基因在正常组织和eQTL的表达。


本文以RAS家族基因为例,来分享一下该网站的功能。

在框中输入想要研究的基因,注意至少输入5个基因,否则无法输出结果。点击TCGA库中的肿瘤或组织类型,以及右侧分析类型。在下方会显示所选的基因总个数,有效和无效个数,并可以导出数据。


生信和数据挖掘必备:一款超好用的基因组分析工具网站!

图片来源与官网


接下来,点击“Start Gene Set Analysis”按钮,查看分析结果。



TCGA Cancer

1

miRNA表达

该模块分析结果提供基因差异表达,生存分析和亚型分析,相应的图形结果提供PDF,png和EPS多种文件格式下载。


生信和数据挖掘必备:一款超好用的基因组分析工具网站!


2

单核苷酸变异(SNV)分析

SNV模块能显示特定肿瘤类型中的SNV频率和基因集的变异类型。突变对总体生存OS的作用通过对数秩检验来评估。


SNV percentage profile: 该部分展现特定肿瘤类型中所选基因的相对SNV频率,每一行表示一个基因。


生信和数据挖掘必备:一款超好用的基因组分析工具网站!

图片结果来源于官网


SNV summary:显示变体类型(SNP或DEL),变体分类和SNV类等。


生信和数据挖掘必备:一款超好用的基因组分析工具网站!

图片结果来源于官网


SNV>显示在选定的TCGA肿瘤类型中详细的SNV信息的基因集。


生信和数据挖掘必备:一款超好用的基因组分析工具网站!

图片结果来源于官网


④SNV survival plot:该部分显示选定的肿瘤类型中有或无SNV的样本的Kaplan-Meier生存评估。


3

CNV分析

该部分结果图形包括CNV Pie distribution(CNV)类别(杂合/纯合,删除/扩增)。Heat CNV部分表示CNV分类在选定癌症类型中的分布。CNV to expression 则显示CNV于基因表达的关系。


4

甲基化分析

该模块主要探讨所选肿瘤与配对正常人之间的甲基化差异。包括Differential Methylation, Methylation survival和Methylation to Expression三部分。本研究图形如下:


生信和数据挖掘必备:一款超好用的基因组分析工具网站!

生信和数据挖掘必备:一款超好用的基因组分析工具网站!

图片截图来源于官网


5

通路活性

该模块包括Global percentage, Heatmap percentage和Relation network三个部分,主要提示选定肿瘤类型的基因整体活性,基因对通路的影响百分比(激活/抑制)和基因的表达。


6

miRNA网络

提供一个miRNA调节网络,可视化miRNA对基因的潜在调节,见图。


生信和数据挖掘必备:一款超好用的基因组分析工具网站!

图片来源于官网



药物敏感性分析

该模块整合了GDSC和CTRP中癌细胞系的药物敏感性和基因表达谱数据进行研究。通过Spearman相关分析以药物的敏感性进行基因组中各个基因的表达。



GETX Normal Tissues


该模块包括GETX expression, 以热图和箱式图显示所选GETX正常组织中查询基因集的表达谱和分析得分。同时Table of eQTL in GTEX dataset会以表格形式展示。


对很多临床医生而言,数据都是现有的。所以不需要花时间做试验做科研,只要潜心做临床,在门诊、住院、随访中发现问题,通过挖掘数据、分析数据,你也能发表高分的 SCI 论文。


但在这条道路上,半路出家的大有人在,非常多同学反馈,想要系统的进行学习。为了给大家降低学习门槛,帮助更多医学人员掌握生物医学大数据,小狗阅读团队联合首都医科大学生物医学工程学院副教授华琳,传授大家如何利用大数据发表自己的第一篇生信SCI!


课程原价399元的

生物医学大数据挖掘及生物信息学案例分析

限时拼团仅需79元(1月7日24:00截止)

14节精品视频课程,好评率99%!

让你灵活运用大数据,快速发表SCI

生信和数据挖掘必备:一款超好用的基因组分析工具网站!


点击阅读原文,查看课程详情

以上是关于泛基因组工具: Roary, panX, PEPPAN, PGAP的主要内容,如果未能解决你的问题,请参考以下文章

基因组组装中的pipeline是啥意思

入门必看—轻松掌握Contig Binning分析

调控基因组

从群体基因组数据推断祖先

宏基因组 - (1)基因预测与基因相对丰度的计算

用k-mer分析进行基因组调查:(一)基本原理