如何提取一个转录本的3'UTR区域的序列

Posted xiaojikuaipao

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了如何提取一个转录本的3'UTR区域的序列相关的知识,希望对你有一定的参考价值。

 

如何提取一个转录本的3‘UTR区域的序列

在做microRNA 和 mRNA 相互作用预测的时候,大家都知道microRNA 作用的靶点是位于mRNA 的3‘UTR取,所以只需要提取mRNA 对应的3‘UTR 区的序列去做分析即可;

那么如何提取一个mRNA的3‘UTR区呢?

在UCSC数据库中,提供了3‘UTR区序列的下载,以人类hg19为例, 利用table browser 浏览器选择对应的序列

链接:http://genome.ucsc.edu/cgi-bin/hgTables

按下图所示进行选择

技术图片

点击get output 按钮,在弹出的页面选择 genomic

技术图片

点击 submit 按钮,在弹出的页面勾选需要的区域,这里我们只选择 3‘UTR区域

技术图片

然后点击下方的get sequence 按钮,在浏览器中保存文件即可。

技术图片

UCSC为我们提供了自动化的下载转录本特定区域的功能,如果我们自己来完成这件事,又该如何去做?

其实只需要两步:

1)第一步,确定每个mRNA的3‘ UTR区在基因组上的位置;

2) 第二步,根据基因组上的位置,从基因组上提取对应的序列就可以了;

如何定义一个转录本的3’UTR区呢,我们看UCSC是如何定义的,

以转录本NM_033487 为例,从UCSC下载的该转录本的序列为

技术图片

利用NCBI的 nucleotide 数据库检索该转录本序列,链接如下 https://www.ncbi.nlm.nih.gov/nuccore/NM_033487

在对应的页面可以看到 该转录本的ploy A 尾开始的位置为2824;

技术图片

在对应的序列中,可以看出poly A 尾之前的5bp的序列为aggaa, 和 UCSC对应的3’UTR区是一致的

技术图片

从UCSC下载的3’UTR序列的长度为523bp,对应的的基因组位置为 chr1:1570603-1571125;

 

 

以上是关于如何提取一个转录本的3'UTR区域的序列的主要内容,如果未能解决你的问题,请参考以下文章

利用gff提取某个基因的最长转录本(Python实现)

请教ORF 和 gene 的区别

NCBI获取基因序列以及不同转录本序列

数据库查找启动子区域并进行转录因子预测

转录组测序3-序列基因组比对

转录组数据定量归一化