nei’s基因多样性
Posted
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了nei’s基因多样性相关的知识,希望对你有一定的参考价值。
请各位大侠帮忙解释一下什么是“nei’s基因多样性?”该怎样读啊?谢谢!
这是一个科学家的名字,有这么一个系数,叫做nei氏多样性指数植物分子群体遗传学研究动态
分子群体遗传学是当代进化生物学研究的支柱学科, 也是遗传育种和关于遗传关联作图和连锁分析的基础理论学科。分子群体遗传学是在经典群体遗传的基础上发展起来的, 它利用大分子主要是DNA序列的变异式样来研究群体的遗传结构及引起群体遗传变化的因素与群体遗传结构的关系, 从而使得遗传学家能够从数量上精确地推知群体的进化演变, 不仅克服了经典的群体遗传学通常只能研究群体遗传结构短期变化的局限性, 而且可检验以往关于长期进化或遗传系统稳定性推论的可靠程度。同时, 对群体中分子序列变异式样的研究也使人们开始重新审视达尔文的以“自然选择”为核心的进化学说。到目前为止, 分子群体遗传学已经取得长足的发展, 阐明了许多重要的科学问题, 如一些重要农作物的DNA多态性式样、连锁不平衡水平及其影响因素、种群的变迁历史、基因进化的遗传学动力等, 更为重要的是, 在分子群体遗传学基础上建立起来的新兴的学科如分子系统地理学等也得到了迅速的发展。文中综述了植物分子群体遗传研究的内容及最新成果。
1 理论分子群体遗传学的发.展简史
经典群体遗传学最早起源于英国数学家哈迪和德国医学家温伯格于1908年提出的遗传平衡定律。以后, 英国数学家费希尔、遗传学家霍尔丹(Haldane JBS)和美国遗传学家赖特(Wright S)等建立了群体遗传学的数学基础及相关计算方法, 从而初步形成了群体遗传学理论体系, 群体遗传学也逐步发展成为一门独立的学科。群体遗传学是研究生物群体的遗传结构和遗传结构变化规律的科学, 它应用数学和统计学的原理和方法研究生物群体中基因频率和基因型频率的变化, 以及影响这些变化的环境选择效应、遗传突变作用、迁移及遗传漂变等因素与遗传结构的关系, 由此来探讨生物进化的机制并为育种工作提供理论基础。从某种意义上来说, 生物进化就是群体遗传结构持续变化和演变的过程, 因此群体遗传学理论在生物进化机制特别是种内进化机制的研究中有着重要作用[1]。
在20世纪60年代以前, 群体遗传学主要还只涉及到群体遗传结构短期的变化, 这是由于人们的寿命与进化时间相比极为短暂, 以至于没有办法探测经过长期进化后群体遗传的遗传变化或者基因的进化变异, 只好简单地用短期变化的延续来推测长期进化的过程。而利用大分子序列特别是DNA序列变异来进行群体遗传学研究后, 人们可以从数量上精确地推知群体的进化演变, 并可检验以往关于长期进化或遗传系统稳定性推论的可靠程度[1]。同时, 对生物群体中同源大分子序列变异式样的研究也使人们开始重新审视达尔文的以“自然选择”为核心的生物进化学说。20世纪60年代末、70年代初, Kimura[2]、King和Jukes[3]相继提出了中性突变的随机漂变学说: 认为多数大分子的进化变异是选择性中性突变随机固定的结果。此后, 分子进化的中性学说得到进一步完善[4], 如Ohno[5]关于复制在进化中的作用假说: 认为进化的发生主要是重复基因获得了新的功能, 自然选择只不过是保持基因原有功能的机制; 最近Britten[6]甚至推断几乎所有的人类基因都来自于古老的复制事件。尽管中性学说也存在理论和实验方法的缺陷, 但是它为分子进化的非中性检测提供了必要的理论基础[7]。目前, “选择学说”和“中性进化学说”仍然是分子群体遗传学界讨论的焦点。
1971年, Kimura[8]最先明确地提出了分子群体遗传学这一新的学说。其后, Nei从理论上对分子群体遗传学进行了比较系统的阐述。1975年, Watterson[9]估算了基于替代模型下的DNA多态性的参数Theta(θ) 值和期望方差。1982年, 英国数学家Kingman[10, 11]构建了“溯祖”原理的基本框架, 从而使得以少量的样本来代表整个群体进行群体遗传结构的研究成为可能, 并可以进一步推断影响遗传结构形成的各种演化因素。溯祖原理的“回溯”分析使得对群体进化历史的推测更加合理和可信。1983年, Tajima[12]推导了核甘酸多样度参数Pi(π)的数学期望值和方差值。此后, 随着中性平衡的相关测验方法等的相继提出[13~15], 分子群体遗传学的理论及分析方法日趋完善[16]。
近20年来, 在分子群体遗传学的基础上, 又衍生出一些新兴学科分支, 如分子系统地理学(molecular phylogeography)等。系统地理学的概念于1987年由Avise提出, 其强调的是一个物种的基因系谱当前地理分布方式的历史成因[17], 同时对物种扩散、迁移等微进化历史等进行有效的推测[18]。
2 实验植物分子群体遗传研究内容及进展
基于DNA序列变异检测手段的实验分子群体遗传学研究始于1983年, 以Kreitman[19]发表的“黑腹果蝇的乙醇脱氢酶基因位点的核苷酸多态性”一文为标志。以植物为研究对象的实验分子群体遗传学论文最早发表于20 世纪90年代初期[20, 21], 但是由于当时DNA测序费用昂贵等原因, 植物分子群体遗传学最初发展比较缓慢, 随着DNA测序逐渐成为实验室常规的实验技术之一以及基于溯祖理论的各种计算机软件分析程序的开发和应用, 实验分子群体遗传学近10年来得到了迅速的发展, 相关研究论文逐年增多, 研究的植物对象主要集中在模式植物拟南芥(Arabidopsis thaliana (L.) Heynh.)及重要的农作物如玉米(Zea mays L.)、大麦(Hordeum vulgare L.), 水稻(Orazy sativa L.)、高粱(Sorghum bicolor L.)、向日葵(Helianthus annuus L.)等上[16]。其研究内容涵盖了群体遗传结构(同源DNA分化式样)、各种进化力量如突变, 重组, 连锁不平衡、选择等对遗传结构的影响、群体内基因进化方式(中性或者适应性进化)、群体间的遗传分化及基因流等。同时, 通过对栽培物种与野生祖先种或野生近缘种的DNA多态性比较研究, 分子群体遗传学在研究作物驯化的遗传学原因及结果等也取得了重要的进展, 如作物驯化的遗传瓶颈, 人工选择对“驯化基因”核苷酸多态性的选择性清除(selective sweep)作用等等。
2.1 植物基因或基因组DNA多态性
分子群体遗传学的研究基础是DNA序列变异。同源DNA序列的遗传分化程度是衡量群体遗传结构的主要指标, 其分化式样则是理解群体遗传结构产生和维持的进化内在驱动力诸如遗传突变、重组、基因转换的前提。随着DNA测序越来越快捷便利及分子生物学技术的飞速发展, 越来越多的全基因组序列或者基因序列的测序结果被发表, 基因在物种或群体中的DNA多态性式样也越来越多地被阐明。
植物中, 对拟南芥和玉米基因组的DNA多态性的调查最为系统, 研究报道也较多。例如, Nordborg等[22]对96个样本组成的拟南芥群体中的876个同源基因片段(0.48 Mbp)的序列单核苷酸多态性进行了调查, 共检测到17 000多个SNP, 大约平均每30 bp就存在1个SNP位点。而Schmid等[23]的研究结果显示: 拟南芥基因组核甘酸多态性平均为0.007( W)。Tenaillon等[24]对22个玉米植株的1号染色体上21个基因共14 420 bp序列的分析结果显示玉米具有较高的DNA多态性(1SNP/27.6 bp、 =0.0096)。Ching等[25]研究显示: 36份玉米优系的18个基因位点的非编码区平均核苷酸多态性为1SNP/31 bp, 编码区平均为1SNP/124 bp, 位点缺矢和插入则主要出现在非编码区。此外, 其他物种如向日葵、马铃薯(Solanum tuberosum)、高粱、火矩松(Pinus taeda L.)、花旗松(Douglas fir)等[26~30]中部分基因位点的DNA多态性也得到调查, 结果表明不同的物种的DNA多态性存在较大的差异。
繁育方式是显著影响植物基因组的DNA多态性重要因素之一。通常来说, 自交物种往往比异交物种的遗传多态性低, 这已经被一些亲缘关系相近但繁育方式不同的物种如Lycopersicon属植物和Leavenworthia属植物的种间比较研究所证实[31, 32]。但是在拟南芥属中则不然, Savolainen等[33]比较了不同繁育方式的两个近缘种Arabidopsis thaliana(自交种)和Arabidopsis lyrata(异交种)的乙醇脱氢酶基因(Alcohol Dehydrogenase)的核苷酸多态性, 结果发现A. thaliana的核苷酸多态性参数Pi值为0.0069, 远高于A. lyrata的核苷酸多态性(Pi=0.0038)。
2.2 连锁不平衡
不同位点的等位基因在遗传上不总是独立的, 其连锁不平衡程度在构建遗传图谱进行分子育种及图位克隆等方面具有重要的参考价值。Rafalski和Morgante等[34]在比较玉米和人类群体的连锁不平衡和重组的异同时对连锁不平衡的影响因素做了全面的阐述, 这些因素包括繁育系统、重组率、群体遗传隔离、居群亚结构、选择作用、群体大小、遗传突变率、基因组重排以及其他随机因素等。物种的繁育系统对连锁不平衡程度具有决定性的影响, 通常来说, 自交物种的连锁不平衡水平较高, 而异交物种的连锁不平衡水平相对较低。但是也有例外, 如野生大麦属于自交物种, 然而它的连锁不平衡水平极低[35~37]。
拟南芥是典型的自交植物, 研究表明: 拟南芥组基因大多数位点的连锁不平衡存在于15~25 kb左右的基因组距离内[22], 但是在特定位点如控制开花时间的基因及邻接区域, 连锁不平衡达到250 kb的距离[38]。拟南芥基因组高度变异区段同样具有较强的连锁不平衡[39]。这些研究结果说明拟南芥非常适合构建连锁图谱, 因为用少量的样本就可以组成一个有效的作图群体。除拟南芥外, 其它自交物种大多表现出较高的连锁不平衡水平, 如大豆的连锁不平衡大于50 kb[40]; 栽培高粱的连锁不平衡大于15 kb[41]; 水稻的Xa位点连锁不平衡可以达到100 kb以上[42]。
与大多数自交物种相比, 异交物种的连锁不平衡程度则要低得多。例如, 玉米的1号染色体的体连锁不平衡衰退十分迅速,大约200 bp距离就变得十分微弱[24], 但是在特定的玉米群体如遗传狭窄的群体或者特定基因位点如受到人工选择的位点, 连锁不平衡水平会有所增强[43~46]。野生向日葵中, 连锁不平衡超过200 bp的距离就很难检测到(r=0.10), 而栽培向日葵群体连锁不平衡程度则可能够达到约1 100 bp的距离(r=0.10)[26]。马铃薯的连锁不平衡在短距离内下降迅速(1 kb降到r2=0.2左右), 但在1Kb以外下降却十分缓慢(10 cM降到r2=0.1)[27]。此外, 异交繁育类型的森林树种如火矩松、花旗松等同样显示出低水平的连锁不平衡[30, 31]。
2.3 基因组重组对DNA多态性的影响
基因组的遗传重组是指二倍体或者多倍体植物或者动物减数分裂时发生的同源染色体之间的交换或者转换[47]。它通过打破遗传连锁而影响群体的DNA 多态性式样, 其在基因组具体位点发生的概率与该位点的结构有很大的关系, 基因组上往往存在重组热点区域, 如玉米的bronze(bz)位点, 其重组率高于基因组平均水平100倍以上[48]; 并且重组主要发生在染色体上的基因区域, 而不是基因间隔区[49, 50]。同时, 在基因密度高的染色体区段比基因密度低的染色体区段发生重组的频率也要高得多[41, 51]; 在不同的物种中, 基因组重组率平均水平也有很大的差异。如大麦群体基因组的重组率为 =7~8×10–3 [52],高于拟南芥( =2×10–4)40倍[27], 但只有玉米( =12~14×10–3)的一半左右[24]。
目前有很多关于重组和DNA多态性之间的相关关系的研究, 但是没有得到一致的结论。部分研究显示重组对DNA多态性具有较强的影响。如Tenaillon等[24]研究显示玉米1号染色体的DNA多态性高低与重组率具有较高的相关性(r=0.65, P=0.007), 野生玉米群体、大麦及野生番茄也都存在同样的现象[52~54]。而在拟南芥中, 重组对DNA多态性的贡献率就非常低[22]。Schmid等[23]用大量的基因位点对拟南芥群体的核苷酸多态性进行调查后发现: 重组率与核苷酸多态性相关关系不显著; Wright等[55]调查了拟南芥1号和2号染色体的6个自然群体序列变异式样, 结果显示, 在着丝粒附近重组被抑制的染色体区域, 核苷酸多态性并没有随之降低。说明了拟南芥基因组的重组率与DNA多态性并没有必然的相关关系。Baudry等[31]对番茄属内5个种进行了比较研究, 结果也显示重组对种群间的DNA多态性的影响也不明显。
2.4 基因进化方式(中性进化或适应性进化)
分子群体遗传学有两种关于分子进化的观点: 一种是新达尔文主义的自然选择学说, 认为在适应性进化过程中, 自然选择在分子进化起重要作用, 突变起着次要的作用。新达尔文主义的主要观点包括: 任何自然群体中经常均存在足够的遗传变异, 以对付任何选择压力; 就功能来说, 突变是随机的; 进化几乎完全取决于环境变化和自然选择; 一个自然群体的遗传结构往往对它生存的环境处于或者接近于最适合状态; 在环境没有发生改变的情况下, 新突变均是有害的[56]。另一种是日本学者Kimura为代表的中性学说, 认为在分子水平上, 种内的遗传变异(蛋白质或者DNA序列多态性)为选择中性或者近中性, 种内的遗传结构通过注入突变和随机漂变之间的平衡来维持, 生物的进化则是通过选择性突变的随机固定(有限群体的随机样本漂移)来实现, 即认为遗传漂变是进化的主要原因, 选择不占主导地位[2~4]。这两种学说, 在实验植物分子群体遗传学的研究中都能得到一定的支持。
对植物基因在种内进化方式的研究主要集中在拟南芥菜、玉米、大麦等农作物及少数森林树种。Wright和Gaut[16]对2005以前发表的相关文章进行详细的统计, 结果显示: 拟南芥中大约有30%的基因表现为适应性进化; 玉米中大约有24%的基因表现为非中性进化; 大麦的9个基因中, 有4个受到了选择作用的影响。
选择作用主要包括正向选择、平衡选择、背景选择及稳定选择, 它们单独或者联合对特定基因的进化方式产生影响。如花旗松中的控制木材质量和冷硬性状的基因[30]、火炬松的耐旱基因[29]、欧洲山杨 (European aspen)的食草动物诱导的蛋白酶抑制基因(Herbivore-induced Protease Inhibitor)等[57], 经检测在各自的群体受到了正向选择、平衡选择、背景选择单独或者多重影响。植物抗性基因(R基因)是研究得比较深入的一类基因, 大部分研究结果显示抗性基因具有高度的多态性, 并经受了复杂的选择作用[58]。Liu和Burke[26]对栽培大麦和野生大麦群体中9个基因在调查显示其中的8个基因受到稳定选择。Simko等 [27]对47份马铃薯66个基因位点调查表明, 大部分基因位点在马铃薯群体进化过程中受到了直接选择或者分化选择作用。以上对不同物种的不同基因位点的研究都强调了分子进化的非中性的结果, 这说明选择在基因的进化过程中具有非常重要的作用; 另一方面, 中性进化的结果报道较少, 或被有意或者无意地忽略, 事实上即使在强调选择作用的研究文献中, 仍然有相当一部分基因表现为中性进化, 说明在种内微观进化的过程中, 选择作用和中性漂变作用可能单独或者联合影响了物种内不同的基因位点, 共同促进了物种的进化。
2.5 群体遗传分化
分子群体遗传学一个重要的研究内容是阐明物种不同群体之间甚至不同物种群体之间(通常近缘种, 如栽培种及其近缘种或祖先野生种)遗传结构的差异即遗传分化, 并推测形成这种差异的原因, 从而使人能够更好地理解种群动态。
植物种内不同群体间遗传分化的研究案例有很多, 典型的有: (1)拟南芥全球范围内的遗传分化。Kawabe和Miyashita[59]利用碱性几丁质酶A(ChiA)、碱性几丁质酶B(ChiB)及乙醇脱氢酶(Ahd)3个基因对拟南芥进行群体亚结构的分析, 结果只有ChiB显示出一定的群体亚结构, 而ChiA、Ahd的系统学聚类与样本地理来源之间没有表现出任何相关关系,这样的结果暗示了拟南芥近期在全球范围内经历了迅速扩张。 Aguade[60]和Mauricio等[61]分别用不同的基因、Schmid等[23]用多基因位点进行的拟南芥分子群体遗传学研究也支持同样的结论。(2)森林树种的遗传分化。Ingvarsson等[62]发现欧洲山杨的日长诱导发芽的侯选基因(phyB)变异方式呈现出纬度渐变方式, 表明欧洲山杨出现了明显的适应性分化; Ingvarsson等[63]对多个基因单倍型地理格局分布的研究同样发现欧洲杨具有明显的地理遗传分化。但是研究表明花旗松(Pseudotsuga menziesii)[30]、火炬松(Pinus taeda)[29]、圆球柳杉(Cryptomeria japonica)等[64]等物种没有发生明显遗传多样性的地理分化。
植物不同物种间遗传分化的研究主要集中对在栽培种及其野生近缘种的DNA多态性的比较上。由于早期的驯化瓶颈及人工选择繁育等遗传漂变作用结果 [65]。栽培物种的遗传多样性通常都低于他们的野生祖先种。Hamblin等[28]利用AFLP结果筛选得到基因片段的DNA多态性, 对栽培高粱(S. bicolor)和野生高粱(S. propinquum)进行了比较研究, 结果表明: 野生高粱的平均核苷酸多态性大约为0.012( ),大约是栽培高粱的4倍。Liu等[26]的研究显示: 野生向日葵中, 核苷酸多态性达到0.0128( )、0.0144( W),显著高于栽培向日葵的0.0056( )、0.0072( W)。Eyre-Walker等[66]对栽培和野生玉米Adh1基因大约1 400 bp的序列研究表明: 栽培玉米的遗传多样性大约只有野生玉米种(Zea mays subsp. parviglumis)的75%。Hyten等[67]的研究显示野大豆的平均核苷酸多态性为0.0217( )、0.0235( W), 地方种则分别为0.0143( )、0.0115( W),大约为野大豆的66%( )和49%( )。以上结果充分反应了栽培物种驯化过程中曾遭受过瓶颈效应。
3 分子系统地理学
分子系统地理学是在分子群体遗传学的基础上, 衍生出的新学科分支。早在20世纪的60年代, Malecot[68]就发现了基因的同一性随地理距离增加而减少的现象; 1975年Nei的《分子群体遗传学和进化》一书中也提到在描述群体的遗传结构时要重视基因或者基因型的地理分布[1]; 1987年Avise等[17]提出了系统地理学概念。在植物方面, 分子地理系统学研究取得很多重要的成果。如对第四世纪冰期植物避难所的推测及冰期后物种的扩散及重新定居等历史事件的阐释, 其中最为典型的研究是对欧洲大陆冰期植物避难所的确定及冰期后植物的重新定居欧洲大陆的历史事件的重现。如欧洲的栎属植物的cpDNA的单倍型的地理分布格局表明, 栎属植物冰期避难所位于巴尔干半岛、伊比利亚岛和意大利亚平宁半岛, 现今的分布格局是由于不同冰期避难所迁出形成的[69]。King和Ferris[70]推测欧洲北部的大部分欧洲桤木种群是从喀尔巴阡山脉这个冰期避难所迁移后演化形成的。Sinclair等[71, 72]推测欧洲赤松在第四纪冰期时的避难所可能是在爱尔兰岛或者在法国的西部。此外, 分子系统地理学在阐明了一些栽培作物的驯化历史事件如驯化发生的次数及驯化起源地等方面也取得了重要的进展。如Olsen等[73]对木薯 (Manihot esculenta)单拷贝核基因甘油醛-3-磷酸脱氢酶(glyceraldehyde 3-phosphate dehydrogenase)在木薯群体中单倍型的地理分布方式深入调查后推测: 栽培木薯起源于亚马逊河流域南部边界区域。Caicedo等[74]利用核基因果实液泡转化酶(fruit vacuolar invertase)的序列变异阐明了栽培番茄(Lycopersicon esculentum)的野生近缘种(Solanum pimpinellifolium )的种群扩张历史, 基因变异的地理分布方式表明栽培番茄起源于秘鲁北部, 然后逐步向太平洋岸边扩张。Londo等[75]利用一个叶绿体基因和两个核基因的变异对两个亚洲的栽培籼、粳亚种及其近缘野生种进行了系统地理学研究, 阐明了籼、粳稻分别起源于不同的亚洲野生稻(O. rufipogon)群体, 其中籼稻起源于喜马拉雅山脉的南部的印度东部、缅甸、泰国一带, 而粳稻则驯化于中国南部, 等等。
4 小结与展望
目前, 在国际上, 植物分子群体遗传学研究方兴未艾, 在国内, 也开始引起注意。随着植物水稻、拟南芥、杨树的全基因组测序的完成, 以及更多的粮食作物、经济作物、重要森林树种的部分基因组测序结果及EST序列被发表。人们对这些物种的DNA多态性、连锁不平衡水平、基因组或者个别基因的进化推动力量、物种内种群动态和迁移历史等群体遗传学所关注的问题有了一定的了解, 但还远不够深入和透彻。为了推动国内植物分子群体遗传学研究的发展, 笔者提出以下建议, 权当抛砖引玉。(1)大力借鉴国际上有关分子群体遗传学研究的先进方法, 尤其是借鉴以果蝇、人类为研究对象的相关工作。分子群体遗传学研究注重的是分析方法、研究思路以及所要阐明的群体遗传学问题, 而这些很容易学习、掌握并深化研究; (2)深入开展比较基因组学的研究。由于植物种类的繁多以及基因组的复杂性, 人类不可能对不同植物种一一进行全基因组测序, 只能选取少数物种作为模式物种进行测序, 鉴于不同物种之间的同源基因以及基因排列顺序存在一定程度的保守性, 因此, 利用模式植物的基因组测序结果及物种间的比较研究结果可以推动并加速其他物种的相关研究; (3)更加重视分子群体遗传学研究。分子群体遗传学从某种意义上讲是研究种内(微观)进化的一门学科, 而种内微观进化是研究种间宏观进化的前提和基础, 进而加深人们对物种形成、生命进化的认识。另一方面, 连锁不平衡水平是分子群体遗传学研究的重要内容之一, 深入了解连锁不平衡水平对于构建高通量的遗传图谱, 以及利用自然群体进行复杂性状(QTLs)的定位和相关基因克隆具有重要的参考价值; (4)特别要深入开展我国特有的具典型分布格局的植物类群的分子群体遗传学和分子系统地理学的研究, 这对于了解我国植物物种的起源、演变和分布变迁的历史具有重要的意义。同时我国是许多重要农作物和经济作物的起源和驯化中心之一, 深入了解栽培物种及其近缘野生种的DNA多态性及分布方式, 可以为我国的物种保育、重要基因的挖掘、野生物种的驯化栽培、分子育种和植物资源的可持续利用等提供理论指导。 参考技术A nei's基因多样性,基因突变的多样性是基因突变的癌基因年轻化,儿童化癌基因群体遗传进化,突破的癌基因全世界利益集团群体遗传进化。《基因突变进化论》从1937年开始学术界的100万美元主动培养基因突变的癌基因组全球群体无限数学繁殖进化1.2.4.8.16.32.......100亿?统计学大数据,癌基因组群体繁殖进化,每一代25年全球癌症发病率翻一倍,按照马尔萨斯数学级数增加1.2.4.8.16......例如1979年全球癌基因病率250万人,2015年新增1460万人。基因突变的癌基因多样性,突变肺癌基因,突变的肝癌基因,突变的肠癌基因,基因突变的乳腺癌基因年轻化遗传进化:母亲的乳腺癌基因50岁发病,下一代女儿的乳腺癌基因39岁,年轻化遗传进化50一39=11岁,女儿的基因突变的乳腺癌基因在母亲的癌基因的数学基础上又数学叠加积累进化了11岁。癌基儿童化遗传进化的多样性?基本突变的糖尿病病基因年轻化,胰腺癌基因的多样性年轻化? 参考技术B 看过很多的基因多样性,从来没见过这么个词,是不是弄错了
扩增子图表解读1箱线图:Alpha多样性
箱线图
箱形图(Box-plot)又称为盒须图、盒式图或箱线图,是一种用作显示一组数据分散情况资料的统计图。因形状如箱子而得名。在宏基因组领域,常用于展示样品组中各样品Alpha多样性的分布
第一种情况,最大或最小值没有超过1.5倍箱体范围
第二种情况,最大或最小值超过1.5倍箱体范围,外位延长线外,即异常值(outliers)
Alpha多样性
知识背景:Alpha多样性计算方法
常见的丰度估计方法有Shannon, Chao1和Observed OTU和PD whole tree等。我最喜欢用Observed OTU结果为整数,但只有物种种类信息,没有丰度信息,数值范围一般为几百至几千不等,范围很大,与研究对象有关;大家最常用的Shannon index 数值为1-10左右的小数,是综合物种数量和丰度两个层面的结果;Chao1是根据出现1/2次的OTU来估算总体;还有PD whole tree是考虑物种进化关系权重,认为分类学上非常上近的物种存在一定相关性;详细计算方法见:Alpha diversity measures
示例1
这篇文章分析了水稻根不同区域的细菌组成,16S分析文章较系统的作品,两年被引用147次,推荐阅读
图1.B 箱线图展示样品内的多样性(Alpha diversity)
- 图中元素解释
Y轴标签Estimaated species Richness代表估计的物种丰富度信息,刻度范围从0-2000可能代物OTU数量,高低对应物种丰富度即数量的高低;根据我的理解Y轴的刻度应为Observed OTU(即直接统计测序样品中按97%聚类16S的种类,虽然作者説是Shannon);
X轴将标签放在了上方(更常见位于下方),分别代表三个地区,作者采用按地区先分组,因为不同地区环境差异较大,一般先把主要差异因素分开;其次,这篇文章更关注的是水稻不同部分的微生物组,不是部分要在同一地点下进行比较才是单因素变化的分析;
右侧图例表示不同取样位置:从上到下分为土(Bulk Soil)、根际(Rhizosphere)、根表(Rhizoplane)和根内(Endosphere)四类,对应图中每个地区中箱体的不同颜色;
图中颜色箱体代表该组数据中间50%的分布区间,中间线为中位数,上下延长线端点分两种情况:如果范围小于1.5倍箱体则为最大或最小值;否则最远为1.5倍箱体长度的线。
图表意义:从不同地区看,可以看到多样性差别,代表土壤和环境条件可以影响微生物组;从取样的不同部分看,发现多样性差别极大,且不同地区有相同趋势;
图观察规律或结论:从根际-根表-根内,细菌的多样性逐渐下降的。不同地区的差别小于不同部分的差别。
示例2
这篇文章分析了白杨树不同区域的细菌组成和差异,16S分析中非常中规中矩,而且没有任何后续实验,但在今年还能发这么好的杂志,大家可以分析一下原因
图2. 箱线图展示细菌群体的Alpha多样性。四个箱体分别代表根际土(Rhizosphere soil)、根内生菌(Root endosphere)、茎内生菌(Stem endosphere)、叶内生菌(Leaf endosphere)。
- (A) 采用Observed OTUs方法估计OTU丰富度(richess),即有多少物种;
- (B) 采用Pielou方法估算OTU的均匀度(evenness),即各OTU相对丰度间关系;是一种常见enenness指数算法,计算方法是将Shannon-Wiener熵除以OTU数量的自然对数;一般生态学领域比较关注,功能研究者更关注最终的差异OTU;
- (C) 使用反向Simpson指数计算多样性(diversity),是mothor中的方法,来自dominance指数的变形,而dominance计算为每个OTU比例平方再求合,与shannon的方法类似,原理是想用一个数代表整体群体中每个OTU的数量和丰度信息(richness和evenness),我更常用Shannon方法;
- 差异分析:整体上使用ANOVA统计,存在显著差异,P<0.0001;图中字母代表组间组间Turkey两两比较的结果,相同字母的箱体代表组间无显著差异,而不同字母组间存在显著差异;有时会出现同一组出现2个字母的情况,是一种过渡状态,与这两个组均无显著差异。
- 图片优点:(A) Observed OTU数量展示使用了截断图,因为根际土中微生物数量是非常大的,而内生菌种类很少,使用截断图减少图中留白更加美观;不同种组织的颜色选用与实物相近,使人产生亲切感(根深棕,茎浅绿和叶深绿);
- 图片解读:根际土中细菌近千种;根中内生只有2-3百种(也有可能根没洗干净,技术上不容易区分根表还是根内);茎和叶百种左右(其中部分也可能只是来自于表面或污染);此外结果的排列给人传达了由外到内,由上到下有特种数量下降的趋势;
知识背景:主流的分析流程
1、PNAS作者使用QIIME分析流程;2010发表在Nature Method上,被引7689次,是目前比较主流的分析方法,而且持续的维护和创新,目前正在开发QIIME2
2、Microbiome作者的分析流程为mothur,2009年发表目前被近7000次;
3、另外主流的的软件是Usearch,2010年发表在Bioinformatics,目前引用4947次;原来只是一个小小的高速序列聚类和比对软件,目前被作者开发成了扩增子分析流程,其中的关于序列聚类的算法UPARSE由作者单枪匹马发表在Nature method上,被引1424次;其实QIIME的聚类和比对默认都是使用此软件,核心算法是目前的主流;推荐使用。
优点:作者一直在更新;体积小巧;安装方便,依赖关系极少(安装过QIIME的应该都想哭);
缺点:64位版收费(这么好的软件,收费也值得买);部分功能还需使用QIIME脚本,估计将来可以全自己搞定,因为作者太强大
以上是关于nei’s基因多样性的主要内容,如果未能解决你的问题,请参考以下文章
DIP|PCN|CoevDB|PID|Y2H|RosettaDock Serve|元基因组学|微生物多样性
宏基因组扩增子图表解读2散点图:组间整体差异分析(Beta多样性)
易基因:群体分析揭示了DNA甲基化在番茄驯化和代谢多样性中的作用|组学研究