数据挖掘,你还可以这样做(上)

Posted 基迪奥生物

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了数据挖掘,你还可以这样做(上)相关的知识,希望对你有一定的参考价值。

1,Why——为什么要进行转录组+蛋白组的关联分析


1.1转录组需要蛋白组


我们在做机制研究的时候,常常会说到基因的表达调控,可能大家最熟悉的就是转录调控,其实基因表达调控主要包含了3个方面:①转录水平上的调控;②mRNA加工、成熟水平上的调控;③翻译水平上的调控——即围绕着中心法则进行的调控。


我们常用的转录组研究,针对的是转录水平上的调控,在我们前两期的微信文章中,已经介绍了转录调控方面的数据挖掘方法(回顾)。但这只是中心法则中的一部分,在RNA层面,我们可以知道该基因的表达情况,但是有些mRNA可能走着走着就被突如其来的miRNA降解掉了,而我们却无法得到验证。


这个时候,采用专门检测蛋白质的蛋白组就可以帮助我们了解翻译过程中的调控情况了。


图1.中心法则

 

对蛋白组进行研究其实还有其他的好处。很多时候基于转录组的研究只能帮助我们得到一小部分的答案,但生物体的运作不仅仅是由mRNA行使功能,它的正常运行离不开蛋白质、代谢物等等的生物分子,所以在做完了RNA层面的机制研究后,加入蛋白组能够帮助我们进一步解释RNA无法完全解释的生物学难题。


可能有小伙伴要说了,为什么一定是蛋白质呢,像你刚刚说到的代谢物,不可以研究吗?当然可以,转录组+代谢组的研究思路也是非常常见的研究模式,我们在后期也会进行专门的介绍。


那为什么我们要先说蛋白组呢,还是因为中心法则,mRNA会翻译成蛋白质,RNA与蛋白质之间有着非常直观的变化关系,转录组+蛋白质的研究思路能够更直观的展示出基因表达调控的情况,从而解释我们需要研究的生物学问题。


1.2 蛋白组需要转录组


那如果我们已经做了蛋白组,是否还可以做转录组呢?答案是当然可以,蛋白组是我们的生物体运作的结果,最终我们还是要深入到机制中研究,转录组就是归根溯源的好方法。转录组+蛋白组的模式可以帮助我们从两个不同的角度去解析生物学问题,从而挖掘出背后的机制。


另一方面,由于蛋白质谱的技术限制,我们能检测到的蛋白相对较少,通常就是几千个蛋白,通量较低。而转录组一次性可以检测到几万个基因,能一定程度的进行弥补蛋白组通量低的问题。由于生命体需要稳定,蛋白的变化通常不会特别剧烈,因此差异蛋白的数量也相较于差异基因的数量更少,所以当差异的蛋白太少而无法入手研究时,我们也可以从差异基因的角度进行研究,扩展我们的研究目标。


此外,蛋白组的数据分析需要将质谱仪中获得的谱图和参考序列进行比对,才能知道检测的是什么蛋白。当我们研究的是没有参考基因组的物种或者蛋白数据库不足时,测基因组的价格往往比较昂贵,而这个时候,通过检测转录组就可以提供一个蛋白库,使鉴定蛋白的数量与质量得到了提高。

 

数据挖掘,你还可以这样做(上)

图2.转录组+蛋白组联合分析的优势

 

2.How——数据挖掘的方法


说了这么多,有小伙伴们要问了,那么转录组+蛋白组该怎么分析呢?在上一期数据挖掘中我们介绍了表达量挖掘法和功能挖掘法,其实转录组+蛋白组的分析方法也可以基于此来进行研究(PS:其实大多数的数据挖掘方法都是围绕着这两方面进行的)。


数据挖掘,你还可以这样做(上)

图3. 转录组+蛋白组的数据挖掘法

 

表达量挖掘法


2.1 韦恩图


先从表达量挖掘法来介绍,我们常常会发现,在转录组发现的基因,很多时候在蛋白组中没有发现,因此我们首先要先确认能进行关联的有哪些基因。这个时候,我们就可以请韦恩图来帮我们进行判断。


而在做转录组或者蛋白组的时候,我们总是会重点关注差异基因或差异蛋白,因此,我们还可以对差异基因和差异蛋白进行关联,判断它们在两个组学之间发生的变化情况。通过韦恩图,可以非常清晰明显的把基因和蛋白的表达情况展示。

 

数据挖掘,你还可以这样做(上)

图4.表达量法关联转录组+蛋白组

 

2.2四象限图/九象限图


那么,除了韦恩图,还有没有看起来更 “高级”的图形呢?当然有——我们可以麻烦“四象限图”or“九象限图”来帮我们对这些基因进一步的划分。在四象限图和九象限图中,横/纵坐标是转录组/蛋白组的差异倍数(取了log2),每个点代表了一个基因,而不同颜色则表示了这个基因在转录组和蛋白组中的变化情况。如在四象限图中,绿色的点表示在蛋白组中没有差异而在转录组中有差异的基因,红色的点表示在两个组学都有差异的基因。


然而四象限图虽然能将基因和蛋白的变化展示出来,但是从图上看他们之前的关系较为散乱,所以我们对四象限图进行了升级,使九象限图可以将分类更为精确。升级后的九象限图将基因和蛋白的变化进一步细化,通过横纵坐标的虚线将图划分了9个象限,横/纵坐标上的虚线分别表示转录组和蛋白组的差异倍数阈值,点落在阈值线外表示显著差异的基因/蛋白,而阈值线内则表示该点是非显著差异的基因/蛋白。

 

图5.四象限图(左)和九象限图(右)

 

利用四象限图和九象限图,可以更好的了解基因在转录组和蛋白组水平的变化情况。不同颜色和象限的基因背后也代表着不同的生物学意义,比如在转录组中有差异,而在蛋白组中无差异(即四象限中绿色的点,九象限图中的第4、6象限),这类基因可能在翻译的过程中受到了调控,转录后或翻译水平调控,例如miRNA调控靶基因导致抑制蛋白翻译。


又比如当我们做了非模式生物的蛋白组,没有抗体,无法用ELISA 或者Westernblot来做差异蛋白的验证,该怎么办?通常我们会建议老师挑选基因和蛋白表达模式一致的基因来进行验证(即九象限图中的第3,7象限),这类基因转录后、翻译水平不受调控或调控较少的基因,可以辅助我们进行蛋白组的验证。

 

2.3 热图


当然,除了上述的两种方法,我们还可以用其他的分析,聚类热图是我们展示基因丰度的常用方式,经常活跃在各类文章中,同样的,热图也可以应用在转录组+蛋白组的关联分析中。


基于热图来绘制基因在转录组和蛋白组的表达情况非常直观,不过当绘制全部的差异基因时,常常会由于基因的数量太多,绘制出来的热图不够好看(图6左),因此通常会针对某些目标基因来进行绘制热图(图6右),方便我们对这些基因进行讨论。



图6.转录组+蛋白组关联的热图

 

好了,不知不觉又介绍了这么多,那么我们就先到这里吧。下期我们将针对功能挖掘法进行介绍如何进行转录组+蛋白组的数据挖掘。关于表达量挖掘法还有更多的疑问,可以联系基迪奥生物,我们会专门针对你的问题进行答疑解惑哦~那么,我们下期再见啦~


拓展阅读



以上是关于数据挖掘,你还可以这样做(上)的主要内容,如果未能解决你的问题,请参考以下文章

你别告诉我你还在用Excel做数据透视分析吧,太low了!

如何用PPT做出高大上的数据图表?

数据传输POST心法分享,做前端的你还解决不了这个bug?

数据传输POST心法分享,做前端的你还解决不了这个bug?

不仅做观众,你还能这样参与 Google 开发者大会!

你还在代码里做读写分离么,试试这个中间件吧!