插件 Hisat2+StringTie 本地界面化(Win/Mac),点点点,完成转录组数据分析

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了插件 Hisat2+StringTie 本地界面化(Win/Mac),点点点,完成转录组数据分析相关的知识,希望对你有一定的参考价值。

参考技术A 早前,我已经通过插件的方式,让所有 TBtools 用户,都能完成 RNAseq 数据分析,从测序原始数据到基因表达量,使用的是一个曲线救国的策略,即直接使用 kallisto,跳过读段回帖,直接进行读段计数。
目前,更为常用的 RNAseq 上游数据分析流程,应该还是读段回帖之后进行读段计数。一般情况下,使用的软件是:star / hisat2。前者对内存要求高,而后者做了专门的层级索引设计,可以在个人电脑甚至是笔记本(比如我的笔记本 8G 内存)上完成绝大多数物种的转录组读段回帖。
于是,前几天对应的插件都开发出来了,即 hisat2-build 和 hisat2-align。走到这里,我们还能更进一步,做更有意义的事情。
早前的Kallisto本身是依赖于基因组基因结构注释的,其准确程度颇受已有注释的影响,而hisat2等基于回帖的,我们可以进一步做注释“自动校正”以及新转录本或基因挖掘。更为全面一些。这些,则往往常用的软件是 Stringtie。
Stringtie目前为止,并没有人编译windows版本(有点像 MCScanX 当初的情况),于是我做了尝试,调整了源码,并编译了(注:苹果用户 Mac 直接有可用程序,不存在这个问题)。折腾折腾,现在我们可以直接在 TBtools 里面进行转录组的有参考组装以及基于读段回帖的表达量估计。
于是,有必要整理一个教程,理清四个插件的使用,步骤如下:

插件直接从 TBtools 插件商店获取。主要到推荐从高速商店获取,参考前述推文《Plugin | 高速版插件商店!我又有一个绝妙的 idea》。

设置基因组序列文件,用于建立索引

点击Start,并等待即可

如此,即完成了索引构建。

总的来说,基本没什么特别要注意的,除非数据是链特异的,那么最好设置一下。另外是,是否很关注多匹配的reads,如repeat区域,那么可以考虑提高max hits。
恩,Threads 参数控制的是并行任务数目,而不是stringtie运行时的线程数。简单来说,假设输入的是 6 个样品,Threads设置为 2 ,那么同时会有最多两个样品在进行组装(即并行)。
输出结果会放置在输出目录下,

大体如下,

可能唯一需要注意的就是....并行任务数,可参考前述推文,其实常常也无需修改,一般按照电脑有多少个线程,保留2个,剩下的都可以用上试试。

示例数据只有一个样品,所以只组装出一个XXXX.assembly.gtf。无论有多少个输入样品,最终每个样品都会被独立组装,最后合并成一个 merged.stringtie.gtf。这个文件,可用于后续任何分析(亦即,完成了转录本组装)。

Stringtie 除了进行组装,还可以估算转录本以及基因的表达量。

按照要求设置文件即可,可能需要调整的就是read length,如果你想要得到 read counts,用于下一步差异表达分析的话。
运行后,可以看到在输出目录增加了 6 个文件。

插件均已上传至高速商店,

感兴趣地同样参考前述推文《Plugin | 高速版插件商店!我又有一个绝妙的 idea》

今天是大年初一 ~~~
新年新气象,
祝所有 TBtools 用户朋友,
牛年大吉!

HISAT2,StringTie,Ballgown处理转录组数据

HISAT2,StringTie,Ballgown处理转录组数据 

本文总阅读量

HISAT2,StringTie,Ballgown处理转录组数据思路如下:

  1. 数据质控
  2. 将RNA-seq的测序reads使用hisat2比对
  3. samtools将sam文件转成bam,并且排序,为下游分析做准备
  4. stringtie对每个样本进行转录本组装
  5. stringtie 将所有样本的转录本进行合并 注意:此处的mergelist.txt是自己创建的
  6. 计算表达量并且为Ballgown包提供输入文件
  7. Ballgown的安装 分析,需提供一个分组信息;

0.数据质控(QC):
Ubuntu软件包内自带Fastqc,故安装命令apt-get install fastqc
fastqc命令:
fastqc -o . -t 5 SRR3101238_1.fastq.gz &
-o . 将结果输出到当前目录
-t 5 表示开5个线程运行
(四个样本,双端测序,要分别对八个fastq文件执行八次)

1.将RNA-seq的测序reads使用hisat2比对
准备软件:
安装HISAT2
下载地址:
http://ccb.jhu.edu/software/hisat2/downloads/
wget http://ccb.jhu.edu/software/hisat2/downloads/hisat2-2.0.0-beta-Linux_x86_64.zip -P ./
解 压 缩:
unzip hisat2-2.0.0-beta-Linux_x86_64.zip

准备文件:

  1. 参考基因组序列;genome (chr.fa)
  2. 参考基因组的注释文件;genes (chr.gtf)
  3. Hisat2索引文件;indexes (chr_tran.1.ht2)
  4. 测序数据;samples (chr_1.fastq.gz, chr_2,fastq.gz;样本表型信息 与 样本列表)

下载人类参考基因组和注释文件:
1.1 人类参考基因组:Hisat2官网上有Ensemble GRCh38的基因组索引, 链接:http://ccb.jhu.edu/software/hisat2/index.shtml
1.2 注释文件:下载自ensemble数据库ftp://ftp.ensembl.org/pub/release-86/gtf/homo_sapiens
1.3 索引文件的创建:从gtf文件中构建索引,命定如下:
extract_exons.py hg19.annotation.gtf > exons.txt
extract_splice_sites.py hg19.annotation.gtf > splicesites.txt

创建索引另外一种方法:
hisat2-build [options]*<reference_in><ht2_base>

<reference_in>:用于指定参考基因组;

<ht2_base>:用于指定生成的索引文件的基名;

./hisat2-2.0.0-beta/hisat2-build -f ucsc.hg19.fasta –ss splicesites.txt –exon exons.txt -p 7 ./ucsc.hg19

#添加–ss和–exon选项后,需要很大的内存,build 人基因组的话需要200G RAM,如果没有这么大内存,不要添加这两个选项,但要在后续运行hisat时添加 –known-splicesite-infile选项(见下文)
如hisat2-build -f ucsc.hg19.fasta -p 7 ./uscs.hg19 ##大概需要一小时二十分钟

(1). 比对,生成bam文件:“将RNA-seq的测序reads使用hisat2比对对参考基因租组”
hisat2 -q -x ./ucsc.hg19 -1 reads_1.fastq -2 reads_2.fastq -S alns.sam -t

hisat2 -q -x ./ucsc.hg19 -1 reads_1.fastq -2 reads_2.fastq -S alns.sam –known-splicesite-infile splicesites.txt -t

-x :用于指定参考基因组所对应的索引文件;

-1, -2: 用于指定测序 Reads 所在的文件;

-S:用于指定存储比对结果的文件名;

-p: 用于指定线程数;

(2) Sort and convert the SAM files to BAM

samtools sort [email protected] 8 -o ERR188044_chrX.bam ERR188044_chrX.sam

[email protected]:用于指定线程数;

-o:用于指定存储转化结果的文件名;

注:*.bam 格式的文件为二进制文件;

在-b 指定的文件夹下生成特定的文件
e2t.ctab
e_data.ctab
i2t.ctab
i_data.ctab
t_data.ctab
e即外显子、i即内含子、t转录本;
e2t即外显子和转录本间的关系,
i2t即内含子和转录本间的关系,
t_data即转录本的数据

(3) assemble and quantify expressed genes and transcripts

stringtie -p 8 -G chrX_data/genes/chrX.gtf -o ERR188044_chrX.gtf -l ERR188044 ERR188044_chrX.bam

-G :用于指导组装过程的参考注释的文件;

-o:用于指定存储组装结果的文件名;

-l: 为转录本的ID指定前缀;

-p: 用于指定线程数;

(4) Merge transcripts from all samples:

stringtie –merge -p 40 -G chrX_data/genes/chrX.gtf -o stringtie_merged.gtf chrX_data/mergelist.txt

-G :用于指导组装过程的参考注释文件;

-o:用于指定存储组装结果的文件名;

-p: 用于指定线程数;

注: mergelist.txt 文件包含所有*.gtf 文件名的列表, 并且每个文件名占据一行。

(5) Examine how the transcripts compare with the reference annotation (optional)

./bin/gffcompare -r chrX_data/genes/chrX.gtf -G -o merged stringtie_merged.gtf

-r :用于指定参考的注释文件;

-o:用于指定存储结果的文件名的前缀;

-G:用于指定是否比较所有转录本(即使是冗余的);

(6) Estimate transcript abundances and create table counts for Ballgown

stringtie -e -B -p 48 -G stringtie_merged.gtf -o ballgown/ERR188044/ERR188044_chrX.gtf ERR188044_chrX.bam

-e:用于指定是否仅为参考转录本估计表达丰度;

-B:用于指定是否输出 Ballgown table 文件;

-p: 用于指定线程数;

-G :用于指定已组装的注释文件;

-o:用于指定输出结果的文件名;


 

































以上是关于插件 Hisat2+StringTie 本地界面化(Win/Mac),点点点,完成转录组数据分析的主要内容,如果未能解决你的问题,请参考以下文章

HISAT2+StringTie+Ballgown安装及使用流程

Stringtie的使用

关于stringtie定量基因的时候,最后输出很多MSTRG样式的geneid

StringTie用法详解

stringtie 软件的安装

使用hisat2开始分析