用k-mer分析进行基因组调查:(一)基本原理

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了用k-mer分析进行基因组调查:(一)基本原理相关的知识,希望对你有一定的参考价值。

参考技术A

(全文5058字)

【推荐】用Smudgeplot评估物种倍性后,用组合jellyfish+GenomeScope1.0做二倍体物种的基因组调查,用组合KMC+GenomeScope2.0做多倍体物种的基因组调查。

基因组调查(genome survey)指基因组特征评估,一般指通过k-mer分析二代测序数据,获得基因组大小(genome size),杂合度(heterozygosity),重复序列比例,GC含量等基因组信息的手段。

基因组复杂程序的判断标准包括:基因组大小,倍性,杂合度,重复序列比例,GC含量等。

一般而言,基因组越大,重复序列比例越高; GC含量异常低或异常高,重复序列比例也会很高;多倍体基因组的杂合度高于二倍体。

判断基因组复杂程度可以参考以下经验性标准:

k-mer分析可以用在生物信息学许多方面,这篇博客的k-mer分析特指用于基因组调查的k-mer分析方法。

Figure 1. k-mer示例。图片来源: https://cloud.tencent.com/developer/article/1613847

k-mer分析应用的前提假设是测序的reads是随机分布在基因组上的。

首先定义几个变量,方便解释原理:

在不考虑测序错误、序列重复性和杂合序列的条件下,k-mer的深度分布遵循泊松分布。但实际情况是三者都存在,所以需要计算错误率,重复序列占比和杂合度,并根据计算结果修正对基因组大小的估计。

在实际应用过程中,估计了基因组的错误率、杂合度和重复序列比例后,重新修正基因组大小的估计,从而得到基因组调查的结果。

Figure 2. k-mer分析(软件GenomeScope)结果示例

许多分析都会用到k-mer的处理方法,把测序得到的reads通过截取k-mer后用于分析。

比如评估基因组特征,组装基因组,物种样品污染评估等。评估基因组特征(genome survey)包括评估基因组大小(size),杂合度,重复序列比例等。

k-mer分析分为 k-mer频数统计 基因组特征评估 两步。此外,Smudgeplot还可以用k-mer分析评估物种的倍性。

转录组分析中—用R语言画带基因名标签的PCA主成分分析图

参考技术A

 

 

1. “PCA.data.txt” 为基因表达值矩阵。其中第一列为基因名称,这里以ensembl id作为指代;其余各列记录了RNA-seq获得的各基因在各样本中的表达量信息。

2. “group.txt” 则为样本分组文件,记录了样本所属的不同分组。

以上是关于用k-mer分析进行基因组调查:(一)基本原理的主要内容,如果未能解决你的问题,请参考以下文章

基因组survey——K-mer频谱

k-mer字符串的生成

reads k-mer scaffold 知乎

在滑动窗口中查找 k-mers

风口解析 | 基因编辑 | 005 | 基因编辑的产业机会

GWAS基本概念2