转录组测序3-序列基因组比对
Posted
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了转录组测序3-序列基因组比对相关的知识,希望对你有一定的参考价值。
参考技术A 转录组测序是最常用的组学实验,对全谱基因定量,找到差异表达基因。RNAseq涉及到原始数据,数据质控,基因组比对,差异基因鉴定,差异基因功能富集分析,重要基因如转录因子激酶的靶基因预测等,我们用10讲的时间,全面讲解转录组测序报告,及在上百个项目中遇到的近百个常见问题。前两期视频,我们讨论了 测序原始数据 , 原始数据的质控和过滤 。我们拿到cleandata数据,在分析样品的基因表达信息前需要做基因组比对,序列注释。如何对序列进行比对、注释;比对率多少算是合格的测序数据呢,如何查看比对结果?本期视频继续探讨。
(1)转录组测序如何进行基因组比对,原理是什么;
(2)有参考基因组和无参考基因组的分析区别在哪里,怎样选择分析模式;
(3)转录组序列比对的工具有哪些;
(4)基因组比对结果BAM/SAM文件格式简介,以及比对率统计;
(5)基因组浏览器IGV的安装和使用,查看基因组比对概况、基因外显子表达量、可变剪切以及基因组变异位点的教学演示。
视频教程:
bilibili超清视频链接: https://www.bilibili.com/video/BV1ZJ41177rQ
转录组入门:序列比对
任务列表
- 比对软件
- hisat2的用法
- 下载index文件
- 比对、排序、索引
- 质量控制
- 载入IGV,截图几个基因
hisat2的用法
本作业是比对到基因组,所以使用gapped or splices mapper,此流程已经更新。TopHat首次被发表已经是7年前,STAR的比对速度是TopHat的50倍,HISAT更是STAR的1.2倍。HISAT2是TopHat2/Bowti2的继任者,使用改进的BWT算法,实现了更快的速度和更少的资源占用,作者推荐TopHat2/Bowti2和HISAT的用户转换到HISAT2。
官网:https://ccb.jhu.edu/software/hisat2/index.shtml(学习一个软件最好的方法就是结合现有中文资料,加上阅读官方说明书和HELP文档,一般刚开始学习的时候先使用默认参数,不要乱调参数)
下载index文件
cd ~/reference mkdir -p index/hisat && cd index/hisat wget -c ftp://ftp.ccb.jhu.edu/pub/infphilo/hisat2/data/hg19.tar.gz wget -c ftp://ftp.ccb.jhu.edu/pub/infphilo/hisat2/data/mm10.tar.gz tar zxvf hg19.tar.gz tar xvzf mm10.tar.gz
-c:断点续传
比对、排序、索引
把fastq格式的reads比对上去得到sam文件,接着用samtools把它转为bam文件,并且排序(注意N和P两种排序区别)索引好(可以使用管道实现,省去中间SAM保存的过程,直接输出BAM文件)
编写bash脚本:map.sh
#! usr/bin/bash set -u set -e set -o pipefail hg19_ref=/mnt/hgfs/2017/reference/index/hisat/hg19/genome mm10_ref=/mnt/hgfs/2017/reference/index/hisat/mm10/genome data_path=/mnt/hgfs/2017/rna_seq/data NUM_THREADS=25 ls --color=never Homo*1.fastq.gz | while read id;do(~/biosoft/hisat2-2.1.0/hisat2 -t -p $NUM_THREADS -x $hg19_ref -1 $data_path/${id%_*}_1.fastq.gz -2 $data_path/${id%_*}_2.fastq.gz 2 > ${id%_*}_map.log | samtools view -Sb - > ${id%_*}.bam);done ls --color=never Mus*1.fastq.gz | while read id;do(~/biosoft/hisat2-2.1.0/hisat2 -t -p $NUM_THREADS -x $mm10_ref -1 $data_path/${id%_*}_1.fastq.gz -2 $data_path/${id%_*}_2.fastq.gz 2 > ${id%_*}_map.log | samtools view -Sb - > ${id%_*}.bam);done ls --color=never *.bam | while read id;do(samtools sort --threads $NUM_THREADS $id -o ${id%.*}_sorted.bam);done ls --color=never *_sorted.bam | while read id;do(samtools index $id);done
运行脚本:
bash map.sh
质量控制
对bam文件进行简单QC
Reads比对后的质量控制(评估比对质量的指标)
比对上的reads占总reads的百分比;
Reads比对到外显子和参考链上的覆盖度是否一致;
比对到基因组序列,多重比对reads;
相关质控软件除了Picard,RSeQC,Qualimap还有一大堆
以上是关于转录组测序3-序列基因组比对的主要内容,如果未能解决你的问题,请参考以下文章