关于stringtie定量基因的时候,最后输出很多MSTRG样式的geneid

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了关于stringtie定量基因的时候,最后输出很多MSTRG样式的geneid相关的知识,希望对你有一定的参考价值。

参考技术A     相信大家在用hisat2-stringtie-DESeq2这一套流程做差异表达基因分析的时候的时候,最后会输出很多带MSTRG字样的geneid。

我一开始搜索这个问题,网上有些人给出的答案是这个带MSTRG样id的是新发现的新转录本,但是我做出来的结果几乎一半都是带这个id的基因,我觉得不太可能。于是我在外网搜索到了一篇关于这个问题的开发者的答案,大概的意思就是用stringtie在run脚本的时候因为是多线程的,所以每一个线程分开运行,当接收到一个gene_id的时候会先给他一个MSTRG id,方便之后在合并的时候不会乱,于是下面有人回答可以修改官网给出的prepDE.py的脚本将第26行识别的gene_id改成ref_gene_id,经过我的尝试我发现将RE_GENE_ID=re.compile('gene_id "([^"]+)"')修改为RE_GENE_ID=re.compile('gene_name "([^"]+)"'),之后就仅仅出现了大概一千多个MSTRG。

这比较符合新发现的基因的说法。

我以为这件事告一段落,但是就在我做RNA_seq的时候,我发现了一个问题,在一个基因内我发现了一个snp/indel,但是在gene_count.csv文件中没有搜到这个基因,我觉得不太可能,如果这个基因没有表达又是如何找到这个snp/indel差异的呢,于是我看了Stringtie产生的gtf文件,在里面发现了这个基因,但是他的gene_id是MSTRG id,而后面的gene_name是我要找到基因名

于是我以为是prepDE.py的问题,我继续修改,改成了ref_gene_id,结果还是没有用。于是今天我又继续寻找问题的答案,就在我看到一篇文章 解决 Stringtie 基因重复定量的意外收获 ,让我恍然大悟,大概就是这个merge gtf这一步的时候,生成的,同一个基因没有重叠的转录本会分割成两个基因,所以会赋予MSTRG的id ,后来我重新搜索基于stringtie-DESeq2的分析流程, hisat2+stringtie+deseq2分析RNA-SEQ数据 ,发现可以不用merge gtf这一步,所以我直接用自己的注释基因组,最后做出来果然没有MSTRG  id了。也就是说如果你对新发现的转录本不感兴趣,就可以不用merge gtf这一步。其实如果你用bollown包来做差异分析,理论上不会有MSTRG的id了,因为他后面会根据GFF文件注释你的MSTRG对应的gene_name。但是我没有做过,所以有人做过可以分享一下。

      因为看到很多人有这个问题,但是没有人分享,不知道我理解的对不对,生信路上感恩前人的经验,分享一下自己的经验。

CRISPR/Cas9基因敲除原理及实验建议

CRISPR/Cas9基因敲除原理及实验建议

 

    CRISPR Cas9已经成为了最受欢迎的基因编辑技术之一,在2016年的国自然基金中也有很多项目是关于 CRISPR Cas9的。目前在市场上已经有很多Cas9的基因敲除试剂盒,这些试剂盒的操作流程较为简单,客户可让公司直接帮忙设计gRNA,乃至最后的载体验证全包。公司会根据您的要求收取不同的费用,如果只是合成载体,不验证,那么会便宜些。如果要合成载体同时又验证,那么价格又会贵一些。下面是对Cas9基因敲除试剂盒的一个详细说明,我们可以从中了解Cas9基因敲除所需要的敲除原理,基本试剂,基本步骤和研究方法,希望对大家可以有帮助。建议大家直接依靠公司来进行设计,因为自己做的话前期的摸索过程可能会长一些。目前有在线的软件来设计gRNA,如张锋实验室推出的gRNA设计软件等,后面就是分子克隆方面的实验。从实验条件和时间成本考虑,对于大部分的临床医生而言,选择 试剂盒要比选择自己做载体进行验证要好得多。

技术分享

技术分享

技术分享

技术分享

技术分享

技术分享

技术分享

技术分享

技术分享

技术分享

技术分享

技术分享

技术分享

技术分享

技术分享

以上是关于关于stringtie定量基因的时候,最后输出很多MSTRG样式的geneid的主要内容,如果未能解决你的问题,请参考以下文章

Stringtie的使用

数据分析3.1-stringtie 注释新基因-鉴定lncRNA

GTF与GFF

STEP4: 得到表达矩阵的流程

RNA-seq中基因表达表达定量单位选择

RNA-Seq 数据的定量之RPKM和FPKM