【bwa mem比对问题汇总】
Posted
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了【bwa mem比对问题汇总】相关的知识,希望对你有一定的参考价值。
参考技术A 方法一(这种方法我在使用后依旧报错):方法二 使用repair.sh进行修复:(使用这种方法后fastq文件变小,可能是合并部分文件造成的。
此外, fastq.gz也可以,另外就是记得输出文件要和源文件命名不同,以防覆盖。
NGS数据比对之BWA
参考技术ABWA 主要是将reads比对到大型基因组上,主要功能是:序列比对。首先为大型参考基因组建立索引,然后将reads比对到基因组。特点是快速、准确、省内存。由三种类似算法组成:BWA-backtrack,BWA-SW和BWA-MEM。首推BWA-MEM。
BWA-backtrack:reads长度<70bp时,推荐本算法,建议输入reads长度 < 100bp。
BWA-SW:在reads具有频繁的gap时,比对更敏感,推荐本算法。reads长度一般为70bp-1Mbp,支持long-reads,split alignment。
BWA-MEM(首推):在reads长度在70bp-1Mbp范围时,推荐本算法(除了上面两种情况)。支持long-reads,split alignment。
BWA使用说明 使用手册
语法
bwa index ref.fa #首先建立基因组索引
bwa mem ref.fa reads.fq > aln-se.sam # 调用BWA-MEM
bwa mem ref.fa read1.fq read2.fq > aln-pe.sam # 调用BWA-MEM
bwa aln ref.fa short_read.fq > aln_sa.sai # 调用BWA-backtrack
bwa samse ref.fa aln_sa.sai short_read.fq > aln-se.sam # 调用BWA-backtrack
bwa sampe ref.fa aln_sa1.sai aln_sa2.sai read1.fq read2.fq > aln-pe.sam # 调用BWA-backtrack
bwa bwasw ref.fa long_read.fq > aln.sam # 调用BWA-SW
注意:BWA输入的是fastq/fq的原始测序数据。
bwa的使用需要两个 输入文件 :
Reference genome data 和 Short reads data
根据reference genome data 建立 Index File
构建索引时需要注意的问题:bwa构建索引有三种算法,三种算法都是基于BWT的,这三种算法通过参数
-a is 、-a div和-a bwtsw进行选择。其中-a bwtsw对于短的参考序列是不工作的,必须要大于等于10Mb;-a is(效果和-a div是一样的)是默认参数,这个参数不适用于大的参考序列,必须要小于等于2G。
需要参考基因组以及原始fastq文件,输出sam文件格式
read包含:
FLAG字段中的定义为:
BWA生成以下可选字段。以“X”开头的标签是特定于BWA的。
使用bwa完成比对后,用samtools完成BAM格式转换、排序并标记PCR重复序列。
例子:利用 SRR1770413 , 见WES数据处理之寻找突变GATK
以上为BWA比对流程,排序,标记等
以上是关于【bwa mem比对问题汇总】的主要内容,如果未能解决你的问题,请参考以下文章