技能——如何判断测序数据是不是是链特异性
Posted
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了技能——如何判断测序数据是不是是链特异性相关的知识,希望对你有一定的参考价值。
参考技术A前面的帖子 一文阐述链特异性测序——stranded? reverse-stranded? un-stranded? 分享了链特异性测序的相关内容,今天继续分享一个内容: 如何判断测序数据是否是链特异性?
查找原文描述,一般在 method 中,由此判断是否是链特异性测序。
比对完成后,将 bam 文件在 igv 上进行可视化,以单端测序为例,如果你发现测序的read方向总是与所在基因的方向一致或者总是相反,那么就是链特异性测序;反之,则不是。
利用 RseQC 进行判断,其python小脚本 infer_experiment.py 可以帮助我们判断链特异性测序。
安装完成后发现,其实并没有安装软件,而是多了一些脚本,其中有一个就叫 infer_experiment.py 。
部分参数:
(1) -i 比对生成的bam文件(可以不用排序)
(2) -r gtf转bed12文件产生的bed文件。 技能——gtf转为bed12
(3) -s 从所有的reads中抽取多少进行统计(默认200k)
(4) -q unique map的mapq阈值
你会发现有接近80%的reads都是比对到哪条链,基因就在哪条链,占绝对优势。 这个时候我们有理由认为这个单端测序的数据就是链特异性测序的数据。
详细来看: ++ 中第一个 + ,表示这个read比对上正链,第二个 + ,表示这个read所在的基因也是位于正链的。
这个双端测序的数据显然是非链特异性的,详细来看:
1++,1--,2+-,2-+ 表示read1比对上的链和基因所在的链一样,read2比对上的链和基因所在的链是相反的;
1+-,1-+,2++,2-- 表示read1比对上的链和基因所在的链是相反的,read2比对上的链和基因所在的链一样。
问题就在于这两种情况的占比是几乎一样的,说明read的链与基因所在的链完全是随机的,显然就不是链特异性测序了。
完结,撒花~
基因芯片与SNP技术区别
目前采用的基因检测方式主要为基因芯片和SNP的分型检测,这两者之间有什么区别?如果按目前的技术成熟性,现在哪种的技术在实际的检测应用上效果要好一点,希望能提供两者之间详细的比较。
一、原理不同
1、SNP技术:首先,用聚合酶链反应(PCR)扩增含单核苷酸多态性的基因组片段,然后用序列特异性引物进行单碱基扩增。然后将样品分析物与芯片基体共结晶,在真空管中用瞬时纳秒(10-9s)激光进行激发。
2、基因芯片:测序原理是杂交测序法,即用已知序列的一组核酸探针杂交的核酸测序法。
二、特点不同
1、SNP技术:时间飞行质谱(MALDI-TOF)完成的SNP检测准确率可达99.9%,除了准确性高、灵活性强、通量大、检测周期短等优势外,最有吸引力的应该还是它的性价比。
2、基因芯片:快速、高效、自动化。
扩展资料:
基因芯片可分为三种主要类型:
(1)固定在聚合物基质(尼龙膜、硝酸纤维膜等)表面的核酸探针或DNA片段,通常与同位素标记的靶基因杂交检测。通过射线照相。
这种方法的优点是所需的检测设备与目前分子生物学中使用的射线照相技术相一致,并且相对成熟。但芯片上探针密度不高,对样品和试剂的需求量大,定量检测存在诸多问题。
(2)采用点采样法将DNA探针阵列固定在玻璃板上,与荧光标记靶基因杂交检测。该方法的晶格密度可大幅度提高,表面各探针的结合量相对一致,但在标准化和批量生产方面仍存在不易克服的困难。
(3)将直接在玻璃等硬表面上合成的寡核苷酸探针阵列与荧光标记靶基因杂交检测。该方法将微电子光刻技术与DNA化学合成技术相结合,可大大提高基因芯片的探针密度,减少试剂用量,实现标准化和批量生产,具有非常重要的发展潜力。
参考资料来源:百度百科-基因芯片
参考资料来源:百度百科-SNP基因分型
参考技术A 基因芯片与SNP技术区别:1 基因芯片
基因芯片的基本原理是应用已知的核苷酸序列作为探针与标记的靶核苷酸序列进行杂交,通过对信号的检测进行定性与定量分析。基因芯片可在一微小的基片(硅片、玻片等) 表面集成大量的分子识别探针,能够在同一时间内平行分析大量基因,进行大信息量的检测分析 。
基因芯片应用很广, 根据所用探针类型不同分为cDNA 微阵列(或cDNA微阵列芯片) 和寡核苷酸阵列(或芯片) ,根据应用领域不同而制备的专用芯片如毒理学芯片(toxchip) 、病毒检测芯片(如肝炎病毒检测芯片) 、p53 基因检测芯片等。根据其作用可分为检测基因质和量的芯片。量的检测包括:检测mRNA 水平、病原体的有无及比较基因组基因的拷贝数,既可用寡核苷酸芯片,又可用cDNA 芯片完成,但cDNA 芯片更具优势。质的检测包括:DNA 测序及再测序、基因突变和SNP 检测等,主要用寡核苷酸芯片完成。
二、SNP技术
单核苷酸多态性(SNP) 是指在基因组上单个核苷酸的变异,包括置换、颠换、缺失和插入。从理论上来看每一个SNP 位点都可以有4 种不同的变异形式,但实际上发生的只有两种,即转换和颠换,二者之比为2 :1。SNP 在CG序列上出现最为频繁,而且多是C转换为T ,原因是CG中的C 常为甲基化的,自发地脱氨后即成为胸腺嘧啶。一般而言,SNP 是指变异频率大于1 %的单核苷酸变异。在人类基因组中大概每1000 个碱基就有一个SNP ,人类基因组上的SNP 总量大概是3 ×106 个 。
绝大多数疾病的发生与环境因素和遗传因素的综合作用有关,通常认为是在个体具有遗传易感性的基础上,环境有害因素作用而导致疾病。不同群体和个体对疾病的易感性、抵抗性以及其他生物学性状(如对药物的反应性等) 有差别,其遗传学基础是人类基因组DNA 序列的变异性, 其中最常见的是SNP。易感基因的特点是基因的变异本身并不直接导致疾病的发生,而只造成机体患病的潜在危险性增加,一旦外界有害因素介入, 即可导致疾病发生。另外在药物治疗中,易感基因的变异造成药物对机体的疗效和副作用不同。
随着人类基因组计划的进展,人们愈来愈相信基因组中的SNP 有助于解释个体的表型差异、不同群体和个体对疾病,特别是对复杂疾病的易感性以及对各种药物的耐受性和对环境因子的反应。因此, 寻找和研究SNP 已成为人类基因组计划的内容和目标之一 。 参考技术B ----------------------DNA芯片技术与SNP分析--------------------------
摘要: 基因芯片技术作为一种新兴的生物技术,近年来得到迅速发展,其应用具有巨大的潜力。单核苷酸多态性(SNP) 作为新的遗传标记对基因定位及相关疾病研究的意义亦非常重大。本文主要介绍了DNA 芯片技术的原理和分类、单核苷酸多态性检测方法及DNA 芯片技术在单核苷酸多态性检测方面的应用。
生物芯片技术是90 年代初发展起来的,集分子生物学、微电子技术、高分子化学合成技术和计算机科学等于一身的一门新型技术。目前发展的生物芯片种类繁多, 如蛋白质芯片、基因芯片、激素芯片、药物芯片等。但最初的生物芯片主要用于对DNA 的测序, 基因表达谱的鉴定及基因突变体的检测、分析等方面[1 ] 。迄今为止, 使用最多的也是DNA 芯片。DNA 水平遗传多态性标记至今已经历了3 个阶段:限制性酶切片段长度多态性标记(RFLP) 、DNA 重复序列的多态性标记(包括小卫星、微卫星DNA 重复序列) 、单核苷酸多态性标记( single nucleotide polymorphisms , SNPs) [2 ] 。
SNP 具有数量多,分布广泛,易于快速、规模化筛查,便于基因分型等特点。伴随着SNP 检测和分析技术的进一步发展,尤其是与DNA 芯片等技术的结合, SNPs 在基因定位中具有巨大优势和潜力, 并为DNA芯片应用于遗传作图提供了基础。由于基因芯片具有携带信息量大和检测方便的特点,使得用DNA 芯片对SNP 进行分析具有广阔的前景。DNA 芯片和SNP 分析已日益成为研究功能基因组学的工具。
1 基因芯片
基因芯片的基本原理是应用已知的核苷酸序列作为探针与标记的靶核苷酸序列进行杂交,通过对信号的检测进行定性与定量分析。基因芯片可在一微小的基片(硅片、玻片等) 表面集成大量的分子识别探针,能够在同一时间内平行分析大量基因,进行大信息量的检测分析[3 ] 。基因芯片应用很广, 根据所用探针类型不同分为cDNA 微阵列(或cDNA微阵列芯片) 和寡核苷酸阵列(或芯片) ,根据应用领域不同而制备的专用芯片如毒理学芯片(toxchip) 、病毒检测芯片(如肝炎病毒检测芯片) 、p53 基因检测芯片等。根据其作用可分为检测基因质和量的芯片。量的检测包括:检测mRNA 水平、病原体的有无及比较基因组基因的拷贝数,既可用寡核苷酸芯片,又可用cDNA 芯片完成,但cDNA 芯片更具优势。质的检测包括:DNA 测序及再测序、基因突变和SNP 检测等,主要用寡核苷酸芯片完成。
2 SNP
单核苷酸多态性(SNP) 是指在基因组上单个核苷酸的变异,包括置换、颠换、缺失和插入。从理论上来看每一个SNP 位点都可以有4 种不同的变异形式,但实际上发生的只有两种,即转换和颠换,二者之比为2 :1。SNP 在CG序列上出现最为频繁,而且多是C转换为T ,原因是CG中的C 常为甲基化的,自发地脱氨后即成为胸腺嘧啶。一般而言,SNP 是指变异频率大于1 %的单核苷酸变异。在人类基因组中大概每1000 个碱基就有一个SNP ,人类基因组上的SNP 总量大概是3 ×106 个[4 ] 。
绝大多数疾病的发生与环境因素和遗传因素的综合作用有关,通常认为是在个体具有遗传易感性的基础上,环境有害因素作用而导致疾病。不同群体和个体对疾病的易感性、抵抗性以及其他生物学性状(如对药物的反应性等) 有差别,其遗传学基础是人类基因组DNA 序列的变异性, 其中最常见的是SNP。易感基因的特点是基因的变异本身并不直接导致疾病的发生,而只造成机体患病的潜在危险性增加,一旦外界有害因素介入, 即可导致疾病发生。另外在药物治疗中,易感基因的变异造成药物对机体的疗效和副作用不同。
随着人类基因组计划的进展,人们愈来愈相信基因组中的SNP 有助于解释个体的表型差异、不同群体和个体对疾病,特别是对复杂疾病的易感性以及对各种药物的耐受性和对环境因子的反应。因此, 寻找和研究SNP 已成为人类基因组计划的内容和目标之一[5、6 ] 。
3 SNP 的检测方法
SNP 的分型技术可分为两个时代,一为凝胶时代,二为高通量时代。凝胶时代的主要技术和方法包括限制性酶切片段长度多态性分析(RFLP) 、寡核苷酸连接分析(OLA) 、等位基因特异聚合酶链反应分析(AS2PCR) 、单链构象多态性分析(SSCP) 、变性梯度凝胶电泳分析(DGGE) ,虽然这些技术与高通量时代的技术原理大致一样,但是由于它不能进行自动化,只能进行小规模的SNP 分型测试,所以必然会被淘汰。高通量时代的SNP分型技术按其技术原理可分为:特异位点杂交(ASH) 、特异位点引物延伸(ASPE) 、单碱基延伸(SBCE) 、特异位点切割(ASC) 和特异位点连接(ASL) 5 种方法。此外,采用特殊的质谱法[7 ] 和高效液相层析法也可以大规模、快速检出SNP 或进行SNP 的初筛。近年来已经在晶体上用“光刻法”实现原位合成,直接合成高密度的可控序列寡核苷酸,使DNA 芯片法显示出强大威力,对SNP 的检测可以自动化、批量化[8 ] ,并已在建立SNP 图谱方面投入实际应用。DNA 芯片法有望在片刻之间评价整个人类基因组[9 ] 。
4 基因芯片在SNP 分析方面的应用
4.1 疾病预防
随着人类基因组计划的逐步发展,人们分析出了许多基因序列,下一步是要分析这些基因的多态性与生物功能和疾病的关系。通过基因芯片检测SNP ,可以确定基因多态性和疾病的关系;在预防医学方面,可使人们尽早地认识自身潜在的疾病,并实施有效的防治措施,从而做到疾病的早期预防。1997年美国提出了环境基因组学计划,目的是要了解环境因素对人类疾病的影响和意义,针对与环境因素发生相互作用的蛋白的编码基因(如DNA 修复机制、氧化2还原反应及病毒受体蛋白等) 来识别其基因组的多样性以及其结构2功能的关系,从而发现与特定环境因子相关的危险人群,制定出相应的具有个体化特点的危险度评价和预防措施。SNP 是在漫长的进化过程中形成的,具有遗传稳定性。
将其与基因芯片技术相结合进行基因分型, 将会产生大量的遗传易感性标志物,使通过基因分析来筛选易感个体、重点保护高危人群成为可能。美研究人员采用高通量微阵列基因分析方法, 对美国15 个医学中心的352 例患冠状动脉疾病者和418 名未患该疾病个体的62个基因进行了评估[10 ] 。在编码血小板凝血酶敏感蛋白的基因上,鉴定出3 种SNPs (TSP-1 ,TSP-2 ,TSP-4) ,携带TSP-4 (杂合子或纯合子) 变异体的个体患心肌梗塞的危险性高达89 %以上; 携带的TSP-2 变异体为纯合子者发生心肌梗塞的危险性大为降低; 携带的TSP21 变异体为杂合子者冠状动脉疾病过早发生的危险性增加9 倍以上。这种可预示危险性增加的遗传学证据的发现对疾病预防来说是一种进步,这些变异体可能成为预测心血管疾病发生的指标之一。
4.2 临床诊断和个性化治疗
利用基因芯片技术对人类未来疾病作出诊断,具有广阔的前景。Wang 等[11 ] 应用高密度基因芯片对213Mb 人类基因的SNP 进行筛查,确定了3241 个SNPs 位点,显示出大规模鉴定人类基因型的可能。同样,利用基因芯片技术分析感染病毒、细菌基因的多态性,有助于人们了解病毒、细菌的感染发病机制与抗药性机制。例如利用基因芯片检测结核菌核糖体16sRNA 的多态性,可了解结核菌对雷米封和异烟肼的耐药情况。Kozal 等[12 ] 用高密度HIV 寡核苷酸探针芯片对HIV 病株的多态性进行了分析, 观察到HIV21 包膜氨基酸的天然多变性, 对病人临床用药及预后具有重要意义。Kozal等[13 ] 利用芯片技术,对尚未使用蛋白酶抑制剂的HIV 感染病人的HIV21 蛋白酶基因多态性进行研究,并将结果与传统法测序结果相比较,在114 例病人样本中,两者吻合率达98 %。
4.3 药物开发与合理用药
目前兴起的药物基因组学(pharmacogenomics) 主要研究遗传因素对药物作用的影响和不同基因型个体对药物反应的差异[14 ] , 从而为临床有针对性地合理用药和根据不同基因型群体对药物的反应来改进药物设计提供了理论依据。而SNP 是药物基因组学的分子基础[15 ] ,这是当前制药行业对SNPs 制图和发展大量检出SNPs 方法表现出空前兴趣的原因。例如,影响药物体内效应的一个重要因素是肝脏的代谢酶系统,而造成酶功能差异的则是决定其结构及功能的DNA 序列。如果将与药物代谢有关的主要酶系统的DNA 制成基因芯片,便可迅速确定病人之间肝代谢酶的遗传学差异。
近来很多基因分析技术已应用于遗传药理学研究,但如果要同时快速分析多个病人的多个基因以确定其用药方案,则利用基因芯片技术筛选出相关SNP 是最佳选择[16 ] 。
5 前景和展望
基因芯片的一个重要发展趋势是芯片制备、样品处理、杂交、检测以及数据分析的标准化,提高基因芯片的准确性和可靠性。从今后大量的基因多态性检测的应用需求,以及基因芯片的标准化和批量化生产角度来看,利用高分辨率在片合成技术制备高密度基因芯片是一个重要的发展趋势[17 ] 。近年来运用的多色荧光标记技术可更直观地比较不同来源样品的基因表达差异,可以大大提高芯片的准确性和检测范围,把不同来源的靶基因用不同激发波长的荧光素标记,并使它们同时与基因芯片杂交,通过比较芯片上不同波长荧光的分布图获得不同样品间差异表达基因的图谱[18 ,19 ] 。例如用不同的荧光素分别标记靶序列及单碱基失配的参考序列, 使它们同时与芯片杂交,通过不同荧光强弱的比较得出靶序列中碱基失配的信息[20 ] 。
迄今能揭示多基因改变与一些疾病如心脏疾患、糖尿病、哮喘及精神分裂等易感性联系的,非SNPs 莫属。使用基因芯片进行SNP分析,具有快速、高效、准确、可产业化等特点,虽然它还处在初始阶段,但已显示出潜在的广阔的应用前景。
参考资料:国外医学卫生学分册2004年第31卷第1期
参考技术C 你这里指的基因芯片,应该主要是指基因表达芯片,可以检测个体间基因表达水平的差异,是mRNA水平的检测,随着高通量测序的发展,现在表达芯片的市场被转录组测序抢占不少。SNP芯片,主要对基因分型,是DNA水平的检测。在医学领域可用于遗传病筛查等。
农业领域,现在在分子育种中应用非常广,一个个体的所有性状都可以找到与其紧密连锁的SNP标记,通过SNP分型检测,可以预测个体的育种价值。除了分子育种,SNP芯片还可以用于种质资源DNA指纹图谱鉴定、QTL定位等。起价格相对较低廉,根据探针的数量而波动,一般在数百人民币。
以上是关于技能——如何判断测序数据是不是是链特异性的主要内容,如果未能解决你的问题,请参考以下文章