项目一:使用二代数据进行基因组组装(局部组装和全局组装)

Posted Digital-LI

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了项目一:使用二代数据进行基因组组装(局部组装和全局组装)相关的知识,希望对你有一定的参考价值。

项目数据:

  • kongyu_131_PCRfree_.CCAAT_L006_R1_001.fastq.gz (100X)(19G)
    kongyu_131_PCRfree_.CCAAT_L006_R2_001.fastq.gz (100X)(20G)
  • Y255_PCRfree_.TCCGC_L005_R1_001.fastq.gz (30X)(5.4G)
    Y255_PCRfree_.TCCGC_L005_R2_001.fastq.gz (30X)(6.0G)
  • all.chrs.con.fasta (364M)

工具:

  • BWA
  • IGV
  • SOAPdenovo

策略:

  • 将测序的二代reads使用BWA比对到参考基因组,分成不同的窗口,按窗口进行局部组装,然后合并。

 

预备知识:

  • 能用熟练使用 Perl 和 shell 写脚本
  • 会熟练使用 PBS 提交任务
  • BWA使用方法
  • IGV使用方法
  • SOAPdenovo使用方法

 

 

 

局部组装的问题:

已经有两批人没组出来了,局部组装大多不可能组装出完整的100K窗口,因为二代序列reads太短,重复序列太多,重复序列会导致连接中断,一个窗口会出现很多片段,而且也没有方法将其继续连接起来,所以他们都半途而废了。

后续可能会遇到的情况,必须借助后期的分析手段,将诸多片段连接成完整的序列。

杜发的文章,完全是在无参考基因组的情况下,denovo组装,利用多种手段,才将零碎的序列组装成完整的基因组。

老板懂得也不多,最大的贡献就是督促。

以上是关于项目一:使用二代数据进行基因组组装(局部组装和全局组装)的主要内容,如果未能解决你的问题,请参考以下文章

基因组组装中的pipeline是啥意思

基因组 de novo 组装原理

使用DBG2OLC对二三代数据进行基因组混装

BioNano数据的管道

BioNano生物纳米分子的“原始数据到完成装配和组装分析”管线与基于序列的基因组FASTA映射

三代组装小基因组研究综述