调控基因组

Posted 2023-04-13

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了调控基因组相关的知识，希望对你有一定的参考价值。

参考技术A

在人中，有300个TF结合在核心启动子区域；有1500个结合在基因其他区域，可以调节一系列基因

图示

ChIP-seq:

DNase-seq

ATAC-seq (Assay for transposase- accessiblechromatin using sequencing)

文章原图

Some TFs almost always bind in proximal promoter regions

Others bind to many regions

Position weight matrix (PWM)

Given a collection of genes that are likely to be regulated by the same TFs (or orthologous genes across different species — methods based on phylogenetic footprinting principles), find the TF-binding motifs in common

但是问题是不知道motif是什么，找不到相关的基因，而且如何排除背景干扰

比较保守的非编码区域可能有

Expectation-Maximization

In each iteration, it learns the PWM model and identifies examples of the matrix (sites in the input sequences) 在每一次迭代中，学习一个PWMmodel然后再通过输入的序列进行比对

MEME works by iteratively refining PWMs and identifying sites for each PWM(不同的迭代直到找到一个最合适的PWM)

The intuitive idea is as follows:

Start with a k-mer seed (random or specified)通常是6个
Build a PWM by incorporating some of background frequencies 根据背景生成一个初始的PWM

For every k-mer in the input sequences, identify its probability given the PWM model 计算k-mer在输入序列中给出PWM出现的概率

Calculate a new PWM, based on the weighted frequencies of all k-mers in the input sequences
根据input序列中k-mer出现频率的权重更新PWM

例子1

1.1

1.2

1.3

首先设置model, 然后经历Estep和Mstep,找到合适的PWM

然后将PWM进行极大似然转换并取log

然后看输入序列中出现该motif的概率

人的大多数结合位点都是在内含子和基因间区

Stronger sites are not closer to differentially regulated genes (not necessarily more functional)

Majority of functional sites not conserved

目前很难预测靶基因

核心思想

TF在基因组上的结合其实是一个随机过程，基因组的每个位置其实都有机会结合某个TF，只是概率不一样

peak出现的位置，是TF结合的热点，而peak-calling就是为了找到这些热点。

热点：位置多次被测得的read所覆盖（我们测的是一个细胞群体，read出现次数多，说明该位置被TF结合的几率大）。

read出现多少次算多：假设TF在基因组上的分布没有任何规律，测序得到的read在基因组上的分布也必然是随机的，某个碱基上覆盖的read的数目应该服从二项分布。

当n很大，p很小时，二项分布可以近似用泊松分布替代

\\lambda 是泊松分布唯一的参数，n是测序得到的read总数目，l是单个read的长度，s是基因组的大小。

我们可以算出在某个置信概率（如0.00001）下，随机情况下，某个碱基上可以覆盖的read的数目的最小值，当实际观察到的read数目超过这个值（单侧检验）时，我们认为该碱基是TF的一个结合热点。反过来，针对每一个read数目，我们也可以算出对应的置信概率P。

实际情况由于测序、mapping过程内在的偏好性，以及不同染色质间的差异性，相比全基因组，某些碱基可能内在地会被更多的read所覆盖，这种情况得到的很多peak可能都是假的。

MACS考虑到了这一点，当对某个碱基进行假设检验时，MACS只考虑该碱基附近的染色质区段（如10k），此时，上述公式中n表示附近10k区间内的read数目，s被置为10k。当有对照组实验（Control，相比实验组，没有用抗体捕获TF，或用了一个通用抗体）存在时，利用Control组的数据构建泊松分布，当没有Control时，利用实验组，稍大一点的局部区间（比如50k）的数据构建泊松分布。

read只是跟随着TF一起沉淀下来的DNA fragment的末端，read的位置并不是真实的TF结合的位置。

在peak-calling之前，延伸read是必须的。不同TF大小不一样，对read延伸的长度也理应不同。

我们知道测得的read最终其实会近似地平均分配到正负链上，这样对于一个TF结合热点而言，read在附近正负链上会近似地形成“双峰”。

MACS会以某个window size扫描基因组，统计每个window里面read的富集程度，然后抽取（比如1000个）合适的（read富集程度适中，过少，无法建立模型，过大，可能反映的只是某种偏好性）window作样本，建立“双峰模型”。

最后，两个峰之间的距离就被认为是TF的长度D，每个read将延伸D/2的长度

If we are given a set of ChIP-seq peaks, how to identify motif for the TF— use MEME

To find out what the sequence motif resembles — use TomTom

Use known motif to search peak regions — use FIMO

Study common biological pathways or functions of potential target genes of the TF — use GREAT

刘晓乐实验室ChIP-seq数据分析流程

定义：包括一个有向无环图（DAG）和一个条件概率表集合。DAG中每一个节点表示一个随机变量，可以是可直接观测变量或隐藏变量，而有向边表示随机变量间的条件依赖；条件概率表中的每一个元素对应DAG中唯一的节点，存储此节点对于其所有直接前驱节点的联合条件概率

性质：每一个节点在其直接前驱节点的值制定后，这个节点条件独立于其所有非直接前驱前辈节点

类似Markov过程，贝叶斯网络可以看做是Markov链的非线性扩展。这条特性的重要意义在于明确了贝叶斯网络可以方便计算联合概率分布。

通过基因表达来推测网络

经典文章

主要过程

分析过程要给已经构建的相关性矩阵取逆

当样本很小时无法进行转换要使用lasso算法

关键在于如何确定公式中的lamada

这样不需要所有节点之间都有边

调控相关——lncRNA（学习总结）

参考技术A lncRNA现在这么红并非没有道理，它凭着自身强大而独特的调节功能而撑起了细胞生命领域里的半边天，而近年来与其相关的下游机制研究也是层出不穷。 lncRNA下游调节机制虽说是错综复杂，但通常离不了基因、转录、转录后、翻译、翻译后这五个层次。

1. 就基因水平而言，lncRNA与DNA甲基化间有着千丝万缕的关系。而这种模型常见于lncRNA和甲基化转移酶（DNMT1、3等）结合，并将该酶定位至基因的启动子（CpG岛）以及甲基化，进而抑制基因转录。

（ps.这一部分跟我之前看的m6A的书可以联系上）

此外，位于核内的lncRNA还可直接结合DNA序列，抑制转录过程；又或者结合转录因子、RNA聚合酶复合物以及通过组蛋白修饰来影响转录过程。（组蛋白修饰可以作为单独一门学科来研究）

而且lncRNA不仅能在核内大展拳脚，因着自由穿梭核内外的这份特性，它在胞浆内也是锋芒毕露。且不说大家耳熟能详的ceRNA，lncRNA还可通过mRNA的可变剪切、定位以及稳定性，来影响细胞内生理功能的行使。

2.另外， lncRNA也会促进pri-miRNA剪切，甚至有时其自身就亲自客串为miRNA的前体，在被剪切为miRNA后，来抑制靶基因mRNA的表达水平。常言道，技多不压身，一路开挂的lncRNA也顺道插手了蛋白翻译过程，要么结合mRNA 5’UTR,促进翻译；要么结合特定蛋白，靶向mRNA,抑制翻译；要么仰仗着sORF翻译多肽来自产自销。

lncRNA如此全能，也让蛋白质心痒不已。两者一拍即合，蛋白质的磷酸化修饰、定位等都在lncRNA的影响下有条不紊的进行着。

尽管以上种种就是lncRNA发挥功能的十八般武艺，但仍要谨记贪多嚼不烂，小伙伴们只需依据lncRNA的亚细胞定位（与调节功能有关）择其一认真练之，就必然会有所收获。

1.定位核内，先考虑附近100万bp内的基因表达是否有影响，有则为cis-顺式作用;反之，为trans-反式调控基因，就可依据RNA pulldown筛选与lncRNA结合的蛋白；

2.定位胞浆内，若结合RNA，首选ceRNA；若结合蛋白，则可考虑mRNA可变剪切、稳定性，调节基因翻译以及蛋白修饰等机制。

3.而就lncRNA分子机制研究的总体而言，始终是有两个主要策略贯彻其中。

1. 以非编码RNA为对象入手，这是非编码RNA研究的常规套路。从不同刺激或处理的转录组或表达组入手，先通过差异倍数和显著性，及非编码RNA的基因组定位信息等筛选功能性候选RNA分子；再通过正反功能以及细胞-动物实验进行二次验证。

该策略稳定可靠，风险性较小，而难点在于后期分子机制的研究上，若只涉及明星通路及相关蛋白，则是探讨了lncRNA的间接分子机制；但要想将文章拔高档次，还需以RNA-pulldown，RIP，ChIRP等实验技术确定lncRNA相互作用分子以及作用结合位点，来挖掘lncRNA的直接分子机制。

2. 从某一个分子作用模式入手，恰恰反其道而行之。先靶向一个重要的蛋白分子，比如信号转导分子、酶类或者转录因子等；或者一个细胞亚结构，如线粒体、外泌体等，通过RIP-seq或者RNA-seq检测其结合的或者包含的RNA，按照富集的倍数和显著性筛选候选RNA分子，后面通过siRNA或者高表达的方法筛选功能RNA。

该策略从课题设计开始就有着明确指向的功能分子机制，在后续的分子机制研究中比较方便展开；但难点是前期如何做好RIP-seq和细胞亚结构的有效分离，这是后续实验可靠性和可行性的重要保障。

两种策略在实验技术上有部分重叠，但也有各自独特的实验技术需求或数据分析策略。不同策略适应于不同的课题和实验室背景，在选择的时候可以根据课题特点和实验室技术体系进行取舍。当然，两种策略也可以同时应用，相得益彰，相互作证，起到更好验证效果。

插入我十分珍藏的一张RNA之间的互作关系来收尾

再附赠多组学RNA研究的文章一篇：

https://doi.org/10.1155/2020/1618527

这篇帖子以解螺旋一篇文章作为框架，为表尊重，附上链接 https://www.sohu.com/a/206407974_170798

以上是关于调控基因组的主要内容，如果未能解决你的问题，请参考以下文章

易基因：MeRIP-seq等揭示m6A甲基化修饰对抗病毒基因表达的转录调控机制｜Cell Rep

转录因子实验研究方法都有哪些？

易基因：DNA甲基化和转录组分析揭示野生草莓干旱胁迫分子调控机制｜植物抗逆

植物转录因子调控网络该怎么研究？

（分子生物学）啥是增强子? 它们与其他调控序列有何不同? 增强子具都有哪些特点?

易基因：2023年植物表观转录组研究的最新进展（m6A+m5C）｜深度综述