数据挖掘必备宝典:实用肿瘤数据库大全!

Posted 医学方

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了数据挖掘必备宝典:实用肿瘤数据库大全!相关的知识,希望对你有一定的参考价值。

熟练运用数据库,在我们科研中简直就是如虎添翼。功能强大的数据库,除了体现在数据挖掘的能力上,更受大家欢迎的是其可视化分析数据的能力。本文接下来向大家介绍19个在肿瘤领域非常实用的数据库,每个数据库介绍包括相应的官网,数据库简单概要,参考文献,以供大家查阅参考。(本文按字母排序介绍数据库)


1、ArrayExpress

网址:

https://www.ebi.ac.uk/arrayexpress/

数据挖掘必备宝典:实用肿瘤数据库大全!

ArrayExpress是欧洲生物信息协会(EMBL-EBI)下属的功能基因组数据库,收集整理基于芯片和测序的基因组学实验的数据,以支持可重复的研究。数据库目前已收集了71416次实验的46.89TB存档数据。与GEO数据库类似


2、ArrayMap

网址:https://arraymap.org/

数据挖掘必备宝典:实用肿瘤数据库大全!

ArrayMap是由苏黎世大学分子生命科学研究所构建的,提供预处理过的肿瘤基因组芯片数据以及CNA 图谱。arrayMap数据库为高分辨率致癌基因组CNA数据的meta分析和系统级数据集成提供了切入点。用户可通过关键字搜索自己感兴趣的样本或者搜索特定文献中的样本,并在此基础上分析感兴趣的基因或基因组片段上的CNA 。用户还可以选择两个样本来比较二者的CNA 的差异。数据库主要包括约250个肿瘤中的64000个基因组芯片数据。

参考文献:

https://doi.org/10.1093/nar/gku1123


3、BreCAN-DB

网址:http://brecandb.igib.res.in/

数据挖掘必备宝典:实用肿瘤数据库大全!

单核苷酸分辨率上探究DNA断裂与缺失,插入,倒位,串联重复,易位等突变与癌症的关系。

参考文献:

https://doi.org/10.1093/nar/gkv1264


4、Cancer3D

网址:http://www.cancer3d.org/search

数据挖掘必备宝典:实用肿瘤数据库大全!

Cancer3D数据库基于来自癌症基因组图谱(TCGA)和癌细胞系百科全书(CCLE)的数据,超过14 700种蛋白质的突变,这些蛋白质映射到来自PDB的超过24 300种结构。通过蛋白结构认识癌症突变信息,关于蛋白质的模块结构的信息以分别预测新的癌症驱动因子或药物生物标志物。

参考文献:

https://doi.org/10.1093/nar/gku1140


5、CancerGenes

网址:http://ncg.kcl.ac.uk/

数据挖掘必备宝典:实用肿瘤数据库大全!

CancerGenes将注释基因列表与关键公共数据库的信息结合起来。每个基因都注释了基因名称,功能描述,生物体,染色体数目,位置,Entrez基因ID,GO术语,InterPro描述,基因结构,蛋白质长度,转录物计数和实验确定的转录物控制区域,以及链接到Entrez Gene,COSMIC和iHOP基因页面以及UCSC和Ensembl基因组浏览器。

参考文献:

https://doi.org/10.1093/nar/gkl811


6、Cancer Hotspots

网址:

https://www.cancerhotspots.org/#/home

数据挖掘必备宝典:实用肿瘤数据库大全!

Cancer Hotspots数据库由Memorial Sloan Kettering癌症中心的Kravis分子肿瘤学中心维护,提供大规模癌症基因组学数据中发现的在统计学上有显著复发突变的信息。目前,Cancer Hotspots里面包含有24592个肿瘤样品中鉴定的单残基和框内indel突变热点。用户还可按照gene、residue、type、variants等对其内容进行排列查看。


7、CancerPPD

网址:

http://crdd.osdd.net/raghava/cancerppd/

数据挖掘必备宝典:实用肿瘤数据库大全!

基于已经发表的论文数据,汇总整理的经实验验证的抗癌肽(ACPs)和抗癌蛋白的储存库。目前发布的CancerPPD由3491个ACP和121个抗癌蛋白条目组成。每个条目提供与肽相关的全面信息,例如其来源,肽的性质,抗癌活性,N-和C-末端修饰,构象等。

参考文献:

https://doi.org/10.1093/nar/gku892


8、Cancer RNA-Seq Nexus

网址:http://syslab4.nchu.edu.tw/

数据挖掘必备宝典:实用肿瘤数据库大全!

第一个在癌细胞中提供表型特异性编码转录/ lncRNA表达谱和mRNA-lncRNA共表达网络的公共数据库。CRN包括TCGA,SRA和GEO数据库中的癌症RNA-Seq数据集,数据包括癌症和正常组织样本的全基因组转录组,并且每个肿瘤样品都要对应表型信息(TNM分型,grade高低,分子分型等)。网站主要包括:不同分组差异表达比较,共表达调控网络分析,候选基因表达量查询等数据信息。

参考文献:

https://doi.org/10.1093/nar/gkv1282


9、Candidate Cancer Gene Database

网址:

http://ccgd-starrlab.oit.umn.edu/about.php

数据挖掘必备宝典:实用肿瘤数据库大全!

癌症驱动基因的鉴定对于癌症治疗的进步是至关重要的。CCGD是基于来自所有已发表的基于转座子的小鼠前向遗传筛选的转座子CIS的候选驱动基因的手动策划数据库。用户可以快速定位感兴趣基因的信息或生成与特定肿瘤类型相关的驱动基因列表。数据库支持导出为逗号分隔文件或BED格式文件。基因详细信息页面提供许多指向外部资源的链接。主要回答以下三个问题: 我最喜欢的基因是候选癌基因吗?探究在某种癌中已经确定了哪些候选癌症基因?在某一研究中确定候选癌基因?

参考文献:

https://doi.org/10.1093/nar/gku770


10、canSAR

https://cansarblack.icr.ac.uk/

数据挖掘必备宝典:实用肿瘤数据库大全!

一个公共综合癌症知识库,用于支持癌症转化研究和药物发现。通过生物学,药理学,化学,结构生物学和蛋白质网络数据的整合,它提供了一个单一的信息门户,可以回答复杂的多学科问题,已知的蛋白质在什么癌症中是表达或突变的,什么化学工具和细胞系模型可用于实验探测其活性?有关药物的知识,其细胞敏感性特征以及已知哪种蛋白质结合可能解释不寻常的生物活性?整合生物学,药理学,化学,结构生物学和蛋白质网络的不同和多学科数据的唯一资源,为了使研究人员能够快速获得关键信息并回答多学科问题。

参考文献:

https://doi.org/10.1093/nar/gkt1182


11、CaSNP

网址:

https://www.mendeley.com/catalogue/casnp-database-interrogating-copy-number-alterations-cancer-genome-snp-array-data/

数据挖掘必备宝典:实用肿瘤数据库大全!

CaSNP用于癌症CNA关联研究,存储和询问定量CNA数据的数据库,其在104项研究中策划了34种不同癌症类型的11 500个SNP阵列。通过用户输入感兴趣的区域或基因,CaSNP将返回总结每项研究的获得/丢失频率和平均拷贝数的CNA信息,并提供下载数据或在UCSC Genome Browser中可视化的链接。CaSNP还显示热图,显示在所有研究中在查询区域周围的每个SNP标记处估计的拷贝数,以进行更全面的可视化。

参考文献:

https://doi.org/10.1093/nar/gkq997


12、cbioportal

网址:https://www.cbioportal.org/

数据挖掘必备宝典:实用肿瘤数据库大全!

用于探索,可视化和分析多维癌症基因组学数据。将癌症组织和细胞系的分子谱分析数据简化为易于理解的遗传,表观遗传,基因表达和蛋白质组学事件。查询界面与定制数据存储相结合,使研究人员能够以交互方式探索样本,基因和途径的基因改变,并在基础数据中提供时将这些与临床结果联系起来。提供来自多个平台的基因水平数据的图形摘要,网络可视化和分析,生存分析,以患者为中心的查询和软件程序化访问。直观Web界面使研究人员和临床医生可以访问复杂的癌症基因组学概况,而无需生物信息学专业知识

参考文献:

https://stke.sciencemag.org/content/6/269/pl1


13、CellLineNavigator

网址:

http://www.medicalgenomics.org/celllinenavigator

数据挖掘必备宝典:实用肿瘤数据库大全!

旨在支持基因组学,系统生物学和转化生物医学研究领域的实验设计,包含317种不同癌细胞系的全基因组表达谱,分为57种不同的病理状态和28种个体组织。可以快速链接到常用的生物信息学数据库和知识库,允许用户探索和过滤基因表达,关注病理或生理条件。对于更复杂的搜索,高级查询界面可用于查询:差异表达的基因;病理或生理状况;基因名称或功能属性,例如京都百科全书基因和基因组途径图。

参考文献:

https://doi.org/10.1093/nar/gks1012


14、COSMIC

网址:

https://cancer.sanger.ac.uk/cosmic

数据挖掘必备宝典:实用肿瘤数据库大全!

COSMIC是世界上最大最全面的有关肿瘤的体细胞突变以及其影响的资源。主要提供多种肿瘤细胞基因组中的CNA、甲基化、基因融合、SNP及基因表达信息等。旨在将世界上关于人类癌症体细胞突变的信息整合到一个系统中,并使其易于探索。描述了超过一百万个肿瘤样本和大多数人类基因中的2 002 811个编码点突变。页面分为项目、数据管理、工具、帮助、搜索框等几大块,简洁清晰。

参考文献:

https://doi.org/10.1093/nar/gku1075


15、DriverDBv2

网址:http://driverdb.tms.cmu

数据挖掘必备宝典:实用肿瘤数据库大全!

DriverDBv2包含来自TCGA,ICGC和已发表论文的超过7000个外显子组织数据集,以及来自TCGA中超过9500个癌症相关样本(如原发肿瘤,正常组织和转移组织)的RNA-seq数据,以从大规模癌症测序数据中识别癌症驱动基因HMR。DriverDBv2使研究人员能够轻松访问有关癌症驱动基因的不同方面的信息。

参考文献:

https://doi.org/10.1093/nar/gkv1314


16、MethHC

网址:

http://methhc.mbc.nctu.edu.tw/php/index.php

数据挖掘必备宝典:实用肿瘤数据库大全!

MethHC专注于人类疾病的异常甲基化。MethHC整合了来自TCGA的DNA甲基化数据,基因表达数据和microRNA表达数据。MethHC目前包含由Illumina HumanMethylation450K BeadChip产生的6548个DNA甲基化数据和由18个人癌症中的RNA-seq / miRNA-seq产生的12 567个mRNA / microRNA表达数据。

参考文献:

http://dx.doi.org/10.1093/nar/gku1151


17、OncoKB

网址:https://oncokb.org/

数据挖掘必备宝典:实用肿瘤数据库大全!

OncoKB是由Memorial Sloan Kettering癌症中心(MSK)维护的全面的精准肿瘤学知识库,包含来自FDA,NCCN或ASCO,ClinicalTrials.gov和科学文献的专业指导方针和建议,治疗策略,肿瘤专家或肿瘤协会共识,参考文献等信息。OncoKB目前包含有关554种癌症基因特定改变的详细信息,还有1级(FDA批准)、2级(标准护理)的治疗信息,3级临床证据和生物学证据。


18、SCDE

网址:http://discovery.hsci.harvard.edu/

数据挖掘必备宝典:实用肿瘤数据库大全!

干细胞搜索引擎:用于癌症干细胞比较的集成存储库和分析系统,提高我们对癌症干细胞(CSC)中常见且独特的分子过程的理解(越来越多的证据表明恶性肿瘤由癌细胞亚群启动和维持,其生物学特性与正常干细胞相似)。

参考文献:

http://dx.doi.org/10.1093/nar/GKR1051


19、UCSC Cancer Genomics Browser

网址:http://genome.ucsc.edu/

数据挖掘必备宝典:实用肿瘤数据库大全!

UCSC Cancer Genomics Browser是一个整合、可视化、分析癌症基因组学和临床数据的网络分析工具。该平台目前共有355个数据集,包括了来自71870例样本的全基因组数据。用户可以通过它浏览基因组的任何一部分,并且同时可以得到与该部分有关的基因组注释信息,如已知基因、预测基因、表达序列标签、mRNA、CpG岛,克隆组装间隙和重叠、染色体带型、小鼠同源性等。

参考文献:

http://dx.doi.org/10.1093/nar/gku1073


THE END

本文列举了一些肿瘤领域中非常实用的综合类数据库(TCGA,GEO,oncomine这些太常见的数据库就不介绍啦,相信大家都非常熟悉了)。其他的还有特异某一肿瘤的数据库:BreCAN-DB(乳腺癌),HLungDB(肺癌),Pancreas Expression(胰腺癌),OncoDB.HCC(肝癌)等(数据库太多,不同数据库侧重点不一样。我们精力有限不可能每个数据库都精通,只需要知道什么数据库可以满足我们需求,到哪里去找就可以啦。所以本文每个数据库概要中将数据库的关键词标记出来,方便大家快速阅读了解相应数据库)。


数据挖掘必备宝典:实用肿瘤数据库大全!
征 稿 启 事


「医学方」现正式向粉丝们公开征稿!内容须原创首发,与科研相关,一经采用,会奉上丰厚稿酬(300-2000元),。


“医学方”始终致力于服务“医学人”,将最前沿、最有价值的临床、科研原创文章推送给各位临床医师、科研人员。




腾讯课堂:https://medfun.ke.qq.com

网易云课堂:http://study.163.com/u/ykt1467466791112

客服微信:yixuefang1234


温馨提示:医学方还设有专门的讨论群哦~各位明星导师都在群中,可以解答各位的遇到的问题,如有兴趣,可以加客服微信后加入群聊... 

以上是关于数据挖掘必备宝典:实用肿瘤数据库大全!的主要内容,如果未能解决你的问题,请参考以下文章

研发运营必备实用工具网站

生信和数据挖掘必备:一款超好用的基因组分析工具网站!

量亿数据十大炒股必备工具-必存

资料免费领:数据统计分析及方法SPSS教程完整版资料整理完毕,实验数据分析必备宝典!

《肿瘤样本数据挖掘与统计分析 》训练营:首次招募

超级实用Windows快捷键 程序员必备 Windows 快捷操作大全