GEO数据挖掘文章发到11分,是如何做到的?|(西安讲座场地调整通知)

Posted 小张聊科研

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了GEO数据挖掘文章发到11分,是如何做到的?|(西安讲座场地调整通知)相关的知识,希望对你有一定的参考价值。

关于西安免费讲座场地调整的重要通知!


由于举办单位临时开会,本次讲座地点改为9.27(明天)下午两点半(14:30)西安市第三医院(西北大学附属医院)门诊5楼多功能厅举行,由于场地有限只能容纳100人,请大家尽早安排。因场地调整为大家带来的不便,小张聊科研团队深表歉意!


下为正文。



咱们平常一直在讲数据挖掘、生信分析,但是给大家的第一感觉:生信文章都是灌水的!对申请基金没啥帮助。

我们在平台的科研群中问了这样的问题。


提问:大家觉得生信分析类的文章对申请基金的工作基础有用吗?有助于大家毕业吗?

群友们的回答:

群友1:我们学校专业型可以用来毕业,科研型不能用生信文章毕业。

群友2:预测作用大点,有实验验证的有点用,但不大。

群友3:可以用做开题吧,作为基金的思路寻找。

群友4:大数据是趋势,生信就像导盲犬,指导盲人摸象。 生信分析可以从理论层面增加研究的可行性,个人认为对申请基金很有帮助。但是如何筛选、清洗、分析生信,人个见智。

群友5:生信很有用


总体而言,生信在发文章以及申请基金方面还是有很大帮助的,今天咱们来分享一篇文章,和以往低分灌水嫌疑的不同,这一篇GEO数据挖掘配合样本的验证,居然发到了《核酸研究》(NAR)(IF为11.5分)。

GEO数据挖掘文章发到11分,是如何做到的?|(西安讲座场地调整通知)

文章解读:造血干细胞可分化为多种血细胞,类群较多。这个分化过程是严格调控,尤其受到转录因子,microRNAs和长非编码RNA等的调控。近些年环状RNA(circRNA)在调节细胞生物学过程起着非常重要的作用。这篇文章作者们使用GEO里的转录组测序数据,提供了第一个全面的分析人造血干细胞在分化过程中circRNA表达谱系的变化。我们在这里展示了circRNA的表达,且具有细胞特异性,随着分化的过程的成熟而增加。circRNA剪接变异体在不同细胞类型中也有不同表达差异。其中血小板和红细胞,在很多研究中被认为利用RNA维持其功能,而且在调控细胞微环境功能时,可以通过通过微囊泡传递非编码RNA到其他细胞。这里我们证明血小板和红细胞中circRNA的含量在所有的血细胞中含量是最高的。

GEO数据挖掘文章发到11分,是如何做到的?|(西安讲座场地调整通知)

CircRNA以及造血干细胞的分化谱系

GEO中不同细胞的数据SRA获取号:

  • 血小板:(project: PRJEB4522):ERR335311, ERR335312以及 ERR335313;

  • 红血细胞: (GEO: GSE63703) SRR2124299, SRR2124300,SRR2124301以及(GEO: GSE69192) SRR2038798 ;

  • 粒细胞: (project: PRJEB8740) ERR789064,ERR789082, ERR789195以及ERR789201。

GEO数据挖掘文章发到11分,是如何做到的?|(西安讲座场地调整通知)

GEO数据挖掘文章发到11分,是如何做到的?|(西安讲座场地调整通知)

CircRNA在各个细胞中的表达差异


这里面作者用到了DCC和CircExplorer2 (CE)两种工具分析筛选到差异表达的4103种circRNA,其中大概有1000多种circRNA没有在circbase以及circNET中被详细收录。 

GEO数据挖掘文章发到11分,是如何做到的?|(西安讲座场地调整通知)

差异表达的circRNA对其在染色体上的分布统计,每个circRNA上的外显子数量,circRNA在基因位置上的数量(一个基因不只是转录一个circRNA),每个转录本上的外显子数量,以及转录本环化的起始外显子位置以及终点外显子位点。

GEO数据挖掘文章发到11分,是如何做到的?|(西安讲座场地调整通知)

每个不同血细胞类群中特异性差异表达的circRNA展示,差别还是非常大的。

GEO数据挖掘文章发到11分,是如何做到的?|(西安讲座场地调整通知)

作者对差异表达最显著的102 circRNAs进行K-means算法聚类,进行不同细胞类群的聚类展示,其中2, 3, 5, 12以及 14中的circRNA来自于始祖细胞,例如HSCs,MMPs以及LMPP等。模块5中circRNAs同时存在于HSC 、 MPPs 以及 NK 细胞中,等等,作者通过生信对circRNA在分化中的细胞谱系变化做了详细的聚类分析,有助于确认哪些circRNA在哪类分化的细胞中表达差异变化。

GEO数据挖掘文章发到11分,是如何做到的?|(西安讲座场地调整通知)

在所有的细胞类型中,总共有59011个circRNA被检测到(不只是差异表达的circRNA),其中血小板拥有47 654个 circRNA ,而红细胞有27 409个,粒性白血球里有8 925个。经过设定筛选阈值,可信的circRNA在这三种细胞中分别为10729、5878、1989个。

GEO数据挖掘文章发到11分,是如何做到的?|(西安讲座场地调整通知)

三种细胞类群的circRNA的联合分析,其中有1087个是三者共有的。 

GEO数据挖掘文章发到11分,是如何做到的?|(西安讲座场地调整通知)

文章的最后自然是作者通过对血液样品的样本验证,选取了典型差异表达并且特异性的circRNA们进行验证,作者使用血液样品离心之后的四个组分进行验证,红细胞不论是新生的还是年老的细胞,circ-TET2 (exon 3), circ-ANKRD12 (exon 2-8), circ-MAN1A2(exon 2-5)和SPECC1 (exon 4)都能检测到,令人惊喜的是SOX6 mRNA 可以在新生的网状细胞检测到,circ-SOX6只能在成熟的网状细胞中检测到。

 

啧啧啧,这么多的研究课题通过生信分析,大数据挖掘展示了全新的研究思路,这得产生多少课题出来,申请基金再也不用愁,课题设计再也不用愁。


这里面我们讲了造血干细胞分化中circRNA的细胞特异性差异表达以及验证过程,那么lncRNA呢?miRNA呢?这些都可以作为我们分析的角度,另外可以联合单细胞测序对于其他疾病类型或者组织样本进行分析。


生信助力基金和SCI

扫师兄微信交流

 

长按二维码识别关注“小张聊科研”

关注后获取《科研修炼手册》1、2、3、4、5、6、7,8。

以上是关于GEO数据挖掘文章发到11分,是如何做到的?|(西安讲座场地调整通知)的主要内容,如果未能解决你的问题,请参考以下文章

纯数据挖掘发5分SCI不是梦

什么是西八区和东八区

GEO/TCGA 数据挖掘到底什么套路?

如何在geo数据库找想要的数据库

elk笔记13--Queries-geo queries

redis GEO数据类型