科研套路不嫌多，数据挖掘发3分

Posted 2021-04-27 解螺旋

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了科研套路不嫌多，数据挖掘发3分相关的知识，希望对你有一定的参考价值。

如何复现一篇3分生信研究

做科研需要先学习套路，才能超越套路。今天给大家介绍的套路文献是今年发表在《Oncology reports》（IF= 3.041）上的一篇文章。

文章的标题虽然看上去比较泛，但也让读者一眼就能知道主题了，“molecular mechanism”、“potential drugs”、“papillary renal cell carcinoma（PRCC）”，所用的研究数据就是“TCGA and Cmap datasets”了。

当然，也有一些同学看到TCGA这几个字母，就敬而远之了，大家可以翻翻我们之前写的文章，抑或学习下我们的课程，让这些同学们不再只是“远观”，而且可以“亵玩”。

首先，给大家简单介绍下文章method的主要内容：

1. 作者首先用GEPIA做了个差异表达（没错，就是那个网页工具）；

2. 用MetaScape进行 GO的富集分析，用Webgestalt进行 KEGG通路富集分析；

3. 根据上面得到的差异表达基因用Cmap和Drug Pair Seeker进行药物分子预测，前者是Broad下的网页工具，后者是需要下载使用的工具，不过两者都是基于Connectivity Map；

4. 构建药物-通路网络：基于Cmap的数据找到受药物影响的差异表达基因，然后将这些基因做基因富集分析；

5. 构建药物-靶标网络：作者从DrugBank里弄到了潜力位于top10的药物的分子结构，然后去STITCH数据库里找他们的靶基因；

6. 进一步探索PRCC的潜在药物：作者首先用STRING的数据和差异表达的基因，然后在Cytoscape里的CentiScape插件寻找其中的hub基因，再用GEPIA确认hub基因的表达水平。然后在Human Protein Atlas数据库里找了C3和ANXA1的免疫组化结果。最后作者用systemsDock（也是个网页版工具）做了个hub基因蛋白与药物之间的分子对接。

对于新手或者不太熟悉的同学，笔者建议将上述工具和数据库都去学一学用一用，技多真的不压身！（基本都是网站和一些简单的工具）

下面我们来看看文章的主要结果：

1. Table1和Table2分别展示了PRCC中差异表达基因的 GO和KEGG的富集分析结果：