Education:TCGA及SEER公共数据库挖掘与应用学习班

Posted CardiothoracicSurgery

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Education:TCGA及SEER公共数据库挖掘与应用学习班相关的知识,希望对你有一定的参考价值。

2017年10月28日-29日 上海 27日报到  

田林宾馆  (徐汇区田林路1号)


课程背景

随着大数据时代的到来,各种生物类公共数据库井喷,其中就包括癌症领域熟为人知的癌症基因图谱The Cancer Genome Atlas (TCGA)数据库,临床科研人员有没有一种方法可以不做实验不查病史,直接调用现有数据发表SCI论文呢?癌症公共数据库即提供了这样的可能。本次学习班讲授癌症领域熟为人知的癌症基因图谱The Cancer Genome Atlas(TCGA)数据库和癌症监测、流行病学和结果(SEER)数据库。TCGA由NCI牵头,作为美国攻克癌计划的一个大项目,系统提供了癌症多组学测序和芯片数据,包括Gene expression, DNA methylation, Copy Number Variation, Mutation等结果,同时也附有相应各测序样本的完整临床资料。TCGA为肿瘤基础医学和转化医学研究者提供了海量的基因组数据和与其关联的临床数据,这为挖掘有意义的基因组变化和发现影响肿瘤起始、发展、分化、转移等生物学机制提供了海量数据基础。美国的SEER数据库由美国国立癌症研究所(National Cancer Institute,NCI)于1973 年所建立,其后每年定期更新,是北美最具代表性的大型临床肿瘤登记注册数据库之一,收集了各个癌种的临床病理信息和预后数据,并向全世界开放,为临床医师的循证实践及临床肿瘤学研究提供了宝贵的第一手资料。


然而传统的基础医学和临床医学研究者缺乏信息学基础来处理这些大规模癌症数据,因而在面对这些极其有价值的公共数据时,往往心有余而力不足。作为医学信息领域研究者,我们需要将信息学和统计学知识运用到癌症公共数据分析的研究当中,作为连接大数据与肿瘤研究者之间的一个纽带,帮助研究者去更好地挖掘利用这些数据。

课程内容、目标与特色


本次培训提供了一次系统了解TCGA和SEER数据产生,糅合、分析及挖掘的课程,使基础医学和临床医学研究者能更好地挖掘这些公共数据,以便为自身科研项目服务。


本次培训涵盖拟解决的问题包括:1、TCGA各组学数据下载。2、差异表达基因鉴定、共表达分析及聚类、差异甲基化区域鉴定及分析。3、基于TCGA数据挖掘癌症预后相关的甲基化位点和基因。4、SEER数据库的基本情况、获取方式、数据库结构及基本统计方法。5、近年来国内外基于TCGA和SEER数据挖掘的经典案例,重点对基于TCGA和SEER数据库的数据挖掘和课题设计进行讨论。


授课老师

本次培训邀请两位主讲老师。一位来自科研院所,另一位是三甲医院临床医生。两位授课老师将分别从TCGA数据下载,数据整合,清洗及SCI文章常规思路对这些数据进行分析,并从临床角度出发,把测序数据与临床资料整合,为临床医生提供科研思路,为自身科研服务。


课程安排

第一天上午:TCGA概论及相关数据下载介绍

㈠ TCGA数据库基本概念介绍

① TCGA项目的由来及发展始末;

② TCGA包含的癌种和数据类型解析;

③ GEO数据库及数据下载,Oncomine数据库

㈡ 使用TCGA下载单个癌症的RNAseq数据,miRNA表达数据,甲基化数据,突变数据和临床数据,并对数据进行相应合并,整合

㈢ R基本知识讲解;DEseq和limma差异表达基因鉴定

1. 了解R基本数据结构,各种软件包下载和安装

① R语言简介:R语言的由来和发展,优缺点

② R的数据结构:向量;因子;数组;矩阵;数据框;列表

③ R编程:R编程基础及语句判断

④ R实践:读写文本文件及利用TCGA的文件进行二级分析

2. 掌握差异表达基因分析

利用DEseq和limma包对大肠癌中15对癌与癌旁的RNAseq V2的表达数据进行差异表达基因分析,并对结果进行比较

3. 热图制作及聚类分析

① 基于DEseq和limma包鉴定出的差异表达基因,利用pheatmap包制作热图及聚类分析

② 利用火山图显示差异表达基因

第一天下午:差异甲基化分析与生存分析

㈠ bumphunter差异甲基化区域鉴定及分析

1. 使用TCGA的450k甲基化芯片数据鉴定差异化甲基化位点和区域

利用Bunphunter包对大肠癌中癌与配对癌旁的450k甲基化芯片数据进行差异化甲基化区域的鉴定

2. Cox回归及lasso筛选预后相关变量

① 利用survival包进行单因素cox回归分析并筛选变量

结合mRNA的表达值与大肠癌的预后数据,对约2000个蛋白编码基因利用survival包对每个基因进行单因素cox回归分析并筛选P<0.05的基因

② 多因素cox回归分析并用lasso筛选最佳变量组合

把P<0.05的所有基因进行多因素cox回归并用lasso方法筛选大肠癌预后预测的最佳基因组合

③ 利用构建的模型进行高低风险亚组鉴定及生存曲线绘制与比较

利用lasso构建的预后模型把大肠癌分为高低风险亚组,分别绘制生存曲线并比较其差异

第二天上午:SEER数据挖掘

1. SEER数据库入门(软件安装、数据获取、数据检索)

2. 几篇基于SEER数据库发表文章的深度解析

3. 上机操作实战:SEER数据库注册、数据获得、处理和分析


第二天下午:基于TCGA数据和SEER数据的转化医学课题探索

1. 如何利用TCGA进行数据挖掘及临床转化课题设计

2. 几篇基于TCGA数据挖掘文章的深度解析(偏向临床)

3. 整合TCGA和SEER数据进行数据挖掘及临床转化


主办单位:

上海玮瑜生物科技有限公司  上海服淡信息科技有限公司


时间地点:

2017年10月28日-29日 上海 27日报到  田林宾馆  (徐汇区田林路1号)


住宿酒店:

田林宾馆:标准间380元/间   合住190元/间  


注册费用:

2600元/人。授课期间发放纸质邀请函(盖章)和发票。按交费先后顺序确定座位号。会务期间提供午餐,晚餐自理。


付款方式:

A:汇款账户

账户名称:上海服淡信息科技有限公司     账户号:31578103002581719

开户行:上海银行桃浦支行 

B:支付宝转账

收款人:wybiot@163.com     支付宝户名:上海玮瑜生物科技有限公司

C:刷卡或现金

支持公务卡

汇款时写上您的姓名,如果朋友代付一定要注明您本人的名字,便于好查询。


疑问咨询:

联系人:谢老师 13611825136     报名邮箱: wybiot@126.com




以上是关于Education:TCGA及SEER公共数据库挖掘与应用学习班的主要内容,如果未能解决你的问题,请参考以下文章

R语言基础与Seer 数据库挖掘精品实战会议(8.1-2 网络精讲班)

tcga等公共数据库查询你的基因没有统计学显著的预后作用你就放弃了吗

SEER流量众筹模块开发测试网络及使用文档发布

Uanle TCGA数据挖掘——预后相关的甲基化位点及构建重要基因的风险模型

科研数据挖掘实战专题研讨会(北京)

送你一篇TCGA数据挖掘文章