基于BWT算法的比对软件原理解析(BWA & Bowtie & Bowtie2)

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了基于BWT算法的比对软件原理解析(BWA & Bowtie & Bowtie2)相关的知识,希望对你有一定的参考价值。

参考技术A

参考:
踏踏实实做技术:BWA,Bowtie,Bowtie2的比对算法推导

remove multiple mapping reads的方法

CHIP-seq: Bowtie2、BWA用的比较多
RNA-seq: Tophat、Bsmap
甲基化:BS-seeker

global---NW
local--SW

好处是能够穷举出所有的比对情况,所以可以选择全局最优的结果;最大的缺点是比对的非常慢。

BWT(Burrows-Wheeler Transform )

第一步,在raw seq中加$符号,并平移,形成一个 raw matrix

第二步,根据Raw Matrix的首字母进行排序,得到转换矩阵Matrix’,默认$符号排在第一位,

所以最后只用保存L列和每个字母的相对位置就可以了,根据L列和每个字母的相对位置可以干两件事情:

例如:第一个是L- 对应F- 的前一个是G,L-G对应F-G;F-G的前一个是L-C,依次类推,得到原来的ref:ACAACG$

14bp(high quality)---14bp(low quality of high quality)--8bp(real low quality)
分成三断seed,seed1+seed2比对总共的mismatch <= 2,则继续8bp的比对;如果 > 2 直接放弃后面的比对;

第一步,选择seed区域;
20里面选18---
(18+2)+(18+2)+(18+2)+...+(18+2)
保证一个fragment是20,seed 是18bp
或者,10里面选16--
fragment = 16,overlap = 6,

那么根据BWT算法,就把拆分的seed mapping到基因组的大概位置;
然后把基因组可能mapping上的那段区域挑出来,和query seq做比对(用NW或者SW算法),因为query seq NW和SW允许gap open

以上是关于基于BWT算法的比对软件原理解析(BWA & Bowtie & Bowtie2)的主要内容,如果未能解决你的问题,请参考以下文章

bwa比对软件的使用以及其结果文件(sam)格式说明

比对算法总结(二)——基于BWT索引结构的比对算法-Bowite1

比对软件BWA使用

NGS数据比对之BWA

NGS中的一些软件功能介绍

【bwa mem比对问题汇总】