如何获取目标基因的转录因子(上)

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了如何获取目标基因的转录因子(上)相关的知识,希望对你有一定的参考价值。

参考技术A

——Biomart下载基因和motif位置信息

科研过程中我们经常会使用Ensembl(http://asia.ensembl.org/index.html) 网站来获取物种的参考基因组,其中BioMart工具可以获取物种的基因注释信息,以及跨数据库的ID匹配和注释等。

在参考基因组和基因注释文件一文中有详细介绍如何在Ensembel数据库中获取参考基因组和基因注释文件。(点击蓝字即可阅读)

生信分析中,想要找到感兴趣基因的转录因子结合位点,该怎么做呢?

首先需要准备以下3个文件,后面两个文件可以在ensembl网站中下载:

bed格式文件提供了一种灵活的方式来定义数据行,以此描述基因注释的信息。BED行有3个必须的列和9个可选的列。 每行的数据格式要求一致。

关于bed文件格式的介绍,在https://genome.ucsc.edu/FAQ/FAQformat.html#format1中有详细说明。

我们需要下载的 基因位置信息列表 是一个6列的bed文件,每列信息如下:

注:起始位置和终止位置以0为起点,前闭后开。

转录因子结合位点列表 是一个5列的bed文件,每列信息如下:

具体内容见后面示例,更方便理解。

1. 进入Ensembl主页后点击 BioMart

2. 使用下拉框- CHOOSE DATASET - 选择数据库,我们选则 Ensembl Genes 93 ;这时出现新的下拉框- CHOOSE DATASET - ,选择目的物种,以 Human gene GRCh38.p12 为例。如果自己实际操作,需要选择自己的数据常用的基因组版本。如果没有 历史 包袱,建议选择 GRCh38 最新版。

3. 选择数据库后,点击Filters对数据进行筛选,如果是对全基因组进行分析可不用筛选, 略过不填

4. 点击 Attributes ,在GENE处依次选择1-6列的内容,勾选顺序便是结果矩阵中每列的顺序。

5. 如上图中所示,点击 results 后跳转下载页面,中间展示了部分所选的数据矩阵,确定格式无误后点击 GO 即可下载。

6. 转录因子结合位点矩阵的下载 类似上面,不过在下拉框-CHOOSE DATASET- 选择数据库时,我们选则 Ensembl Regulation 93 ,再选择 Human Binding Motif (GRCh38.p12)

7. 在Attributes处选择需要的信息列,点击 Results GO 进行数据下载

将上述下载的两个文件分别命名为 GRCh38.gene.bed 和 GRCh38.TFmotif_binding.bed ,在Shell中查看一下:

基因组中每个基因所在的染色体、位置和链的信息,以及对应的ENSG编号和Gene symbol。

第五列为人中的转录因子,每一行表示每个转录因子在基因组范围的结合位点分布,即其可能在哪些区域有结合motif。这些区域是与TF的结合motif矩阵相似性比较高的区域,被视为潜在结合位点。有程序 MEME-FIMO 或 Homer-Findmotifs.pl 可以完成对应的工作。

转录调控实战 | 一文解决转录调控问题 | chIP-seq | ATAC-seq

做生物想发文章怎么办?转录调控来解析(huyou)!

最简单的情形:

1. 我在研究一个非常重要的基因A,功能已经做得差不多了,现在想深挖,第一步就是想知道哪个转录因子调控这个基因A;

2. 我发现了一个新颖的转录因子B,非常想知道这个B到底再调控哪个基因。

 

研究方法不过几种:

1. 基于大量的ChIP-seq公共数据挖掘;

2. motif分析预测;

3. 做实验验证,DNase/ATAC-seq;

 

 

待续~

 

参考:嘉因

 

以上是关于如何获取目标基因的转录因子(上)的主要内容,如果未能解决你的问题,请参考以下文章

NCBI获取基因序列以及不同转录本序列

如何快速从转录组数据中筛选目标基因!

转录组测序3-序列基因组比对

植物转录因子调控网络该怎么研究?

什么是转录因子?

易基因:全基因组ChIP-seq分析揭示细菌转录因子PhoB的基因内结合位点|mBio