如何提取一个转录本的3‘UTR区域的序列
在做microRNA 和 mRNA 相互作用预测的时候,大家都知道microRNA 作用的靶点是位于mRNA 的3‘UTR取,所以只需要提取mRNA 对应的3‘UTR 区的序列去做分析即可;
那么如何提取一个mRNA的3‘UTR区呢?
在UCSC数据库中,提供了3‘UTR区序列的下载,以人类hg19为例, 利用table browser 浏览器选择对应的序列
链接:http://genome.ucsc.edu/cgi-bin/hgTables
按下图所示进行选择
点击get output 按钮,在弹出的页面选择 genomic
点击 submit 按钮,在弹出的页面勾选需要的区域,这里我们只选择 3‘UTR区域
然后点击下方的get sequence 按钮,在浏览器中保存文件即可。
UCSC为我们提供了自动化的下载转录本特定区域的功能,如果我们自己来完成这件事,又该如何去做?
其实只需要两步:
1)第一步,确定每个mRNA的3‘ UTR区在基因组上的位置;
2) 第二步,根据基因组上的位置,从基因组上提取对应的序列就可以了;
如何定义一个转录本的3’UTR区呢,我们看UCSC是如何定义的,
以转录本NM_033487 为例,从UCSC下载的该转录本的序列为
利用NCBI的 nucleotide 数据库检索该转录本序列,链接如下 https://www.ncbi.nlm.nih.gov/nuccore/NM_033487
在对应的页面可以看到 该转录本的ploy A 尾开始的位置为2824;
在对应的序列中,可以看出poly A 尾之前的5bp的序列为aggaa, 和 UCSC对应的3’UTR区是一致的
从UCSC下载的3’UTR序列的长度为523bp,对应的的基因组位置为 chr1:1570603-1571125;