基因组survey分析

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了基因组survey分析相关的知识,希望对你有一定的参考价值。

参考技术A

用于计算测序数据碱基数,从而计算测序深度

测序深度(depth)= total Basea / genome size
由于水稻基因组大小约为0.4G,由此可知测序深度为52.425x。

主要用于进行k-mer计算

1.使用count的命令来执行计数功能,产生的结果为二进制文件。

2.若上部产生多个结果,融合二进制输出结果(未试用)

3.通过计数结果绘制直方图

4.对out结果进行统计,可统计k-mer总数,特异的k-mer数目,只出现过一次的kmer数,出现了最多的k-mer的数目等信息。

[图片上传失败...(image-735f29-1651141519388)]]
]( https://upload-images.jianshu.io/upload_images/25815255-1025236a4eacf36f.png?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240 )

1.杂合模式

2.纯合模式

1.杂合模式
运算结果输出在21-gce.log文件最后

2.纯合模式
运算结果输出在021-gce.log文件最后

生信 | 基因组组装实战(一):基础知识与基本思路
Jellyfish详解
kmer分析的几款软件介绍

怎么分析关注的功能基因集在转录组结果中表现如何?

参考技术A

拿到转录组数据之后,很多人最关心的恐怕就是差异基因的富集分析了,它阐明了实验中样本差异在基因功能上的体现。

但有时候,我们在设计实验的时候就已经对某些特定功能的基因集特别关注了,那么如何分析这些基因集在实验不同比较组之间的表达情况呢?今天就给大家推荐个相关的分析方法。

基因集富集分析 ( GSEA )

GSEA(Gene Set Enrichment Analysis)是麻省理工和哈佛大学的broad institute 研究团队开发的一个针对基因表达数据进行分析的工具。

GSEA在对基因表达数据分析时,首先确定分析的目的,即选择MSigDB中的一个或多个功能基因集进行分析。然后基于基因表达数据与表型的关联度(也可以理解为表达量的变化)的大小进行排序,进而判断每个基因集内的基因是否富集于表型相关度排序后基因列表的上部或下部,从而判断此基因集内基因的协同变化对表型变化的影响。

GSEA的优势

常规的基因富集分析主要关注差异基因,也就是对差异基因进行功能富集分析,例如GO和KEGG,这容易遗漏部分差异表达不显著却有重要生物学意义的基因,忽略一些基因的生物特性、基因调控网络之间的关系及基因功能等有价值的信息。

GSEA 方法关注的不是有限几个发生显著改变的差异基因,而是关注检测基因的表达在定义的功能分组中是否有共同的表达趋势,是从另一个角度来解读生物学信息,以阐述其中的生物学意义。

GSEA结果讲解

GSEA分析结果最常见的是下图:

1、图最上面部分展示的是富集分数(ES, enrichment score)值计算过程,从左至右每到一个基因,计算出一个ES值,连成线。在最左侧或最右侧有一个特别明显的峰值就是基因集表型上的ES值。图中间部分每一条线代表基因集中的一个基因,及其在基因列表中的排序位置。

2、最下面部分展示的是基因与表型关联的矩阵,红色为与第一个表型(MUT)正相关,在MUT中表达高,蓝色与第二个表型(WT)正相关,在WT中表达高。

3、Leading-edge subset 对富集得分贡献最大的基因成员。若富集得分为正值,则是峰左侧的基因;若富集得分为负值,则是峰右侧的基因。

4、FDR GSEA默认提供所有的分析结果,并且设定FDR<0.25为可信的富集,最可能获得有功能研究价值的结果。但如果样品数目少,而且选择了gene_set作为Permumation type则需要使用更为严格的标准,比如FDR<0.05。

点击查看原文

Bioinformatics

以上是关于基因组survey分析的主要内容,如果未能解决你的问题,请参考以下文章

WGS全基因组分析VCFTOOLS使用

ALG 2-4: A Survey of Common Running Times (对常见运行时间的分析)

全基因组关联分析GWAS专题2——连锁不平衡

全基因组关联分析(GWAS)的计算原理

基因集富集分析

基因富集分析