还在做SNP-GWAS?来看看SV-GWAS吧!

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了还在做SNP-GWAS?来看看SV-GWAS吧!相关的知识,希望对你有一定的参考价值。

参考技术A 随着对复杂动植物基因组认识的不断深入,越来越多的证据表明,基因组结构变异(SVs)在决定育种和农业重要性状方面发挥着重要作用。全基因组关联分析(GWAS)是性状相关基因定位的强有力工具,已被广泛的用于鉴定影响表型变异的候选基因组位点。但通常GWAS的研究主要依赖于单核苷酸变异(SNPs)的信息与表型相关联,而忽略了具有更大表型效应大小的大片段SVs。现在为大家分享几篇SV-GWAS的经典案例,为各位科研工作者的研究提供更多的思路选择和可能性探索。赶紧来看看吧!

一、PAV-GWAS揭示结构变异对大豆种子光泽的影响[1]

文章名称:Pan-Genome of Wild and Cultivated Soybeans

发表期刊:Cell

发表单位:中国科学院遗传与发育生物学研究所等

影响因子:38.637

发表时间:2020年6月

1. 研究背景

大豆为人类提供了主要的植物油料和蛋白资源,是重要的粮食经济作物。野生大豆和栽培大豆之间以及不同地理区域的栽培大豆之间存在广泛的遗传多样性。由于之前缺乏代表不同大豆种质材料的全新基因组资源,因此结构变异在大豆中重要农艺性状调控中发挥作用尚未被很好的开发。

2. 材料方法

对来自世界大豆主产国的2898个大豆种质材料(包含收集自全球范围的103份野生大豆、1048份地方品种和1747份栽培品种)进行了深度重测序和GWAS分析。

3. 研究结果

将2898份材料的重测序数据比对到图形泛基因组,鉴定了总共55,402个SVs,表明大豆种质含有丰富的结构变异多样性。种子光泽是大豆的一个重要性状,先前的研究表明,大豆疏水蛋白(HPS)的积累与种子光泽的变化有关。然而,相关基因仍不清楚。基于图形结构的基因组分型的SVs对种子光泽进行的全基因组关联研究(GWAS),确定了15号染色体上的一个重要信号,其中一个10 kb的PAV导致了一个HPS编码基因的存在和缺失。研究表明,含有和不含有这10 kb序列的大豆种子分别具有较高比例的光泽和无光泽,这表明PAV可能是控制大豆种子光泽变化的因果遗传变异之一。

本文构建了高质量的基于图形结构的泛基因组,挖掘到大量利用传统基因组不能鉴定到的大片段结构变异。经深入分析发现,一些结构变异在重要农艺性状调控中发挥重要作用,如种皮亮度、种皮颜色的驯化、缺铁失绿等。另外,该结果也为SV-GWAS分析如何推动植物基因组学和功能基因组学研究的发现提供了有力的例证。

二、SV-GWAS发现基于SNP-GWAS未发掘的玉米含油量相关的结构变异[2]

文章名称:Genome assembly of a tropical maize inbred line provides insights into structural variation and crop improvement

发表期刊:Nature Genetics

发表单位:华中农业大学等

影响因子:27.603

发表时间:2019年6月

1. 研究背景

玉米是全球重要的粮食作物之一,它显示出丰富的遗传多样性。之前已发表的玉米基因组材料都来自于温带,研究时无法全面揭示热带玉米的遗传多样性。而热带玉米具有许多温带玉米所不具备的优良性状,如抗病虫、耐旱等。本文构建了高质量热带玉米基因组图谱,并基于结构变异进行分析,为探索玉米基因组的结构变异以及挖掘玉米新的优势农艺性状具有重大意义。

2. 材料方法

基于521份不同玉米自交系品种的深度重测序数据进行SVs检测和群体多态性SV(pSV)分析。

3. 研究结果

共鉴定到80,614个多态性 pSV,其中有21.9%的变异是传统SNP检测方法所不能检测到的,说明部分遗传多样性的来源可能并非是SNPs,而是较大的SVs。为确定新鉴定的SVs在表型形成中的效用,研究者针对含油量和脂肪酸含量性状进行了全基因组关联分析,并对SNP-GWAS和SV-GWAS的分析结果进行比较,基于SV-GWAS结果发现了一个新的位于4号染色体上的显著相关的区域,在这个区域内的位点呈连续分布,推测该区域可能与玉米的含油量性状相关。在这个候选区域内找到一个基因 Zm00015a017119 ,该基因编码烯酰-酰基载体蛋白还原酶(ENR),该酶催化脂肪酸延伸循环中的最后一个酶促步骤。结合转录组数据进行验证,结果发现ENR表达量与含油量呈正相关,统计86个主要SVs类型为B73的个体和7个主要SVs类型为SK的个体,结果表明是SVs造成玉米含油量的显著差异。

该研究基于SV-GWAS发现了新的变异候选位点,结合转录组数据,发现SVs相比于SNPs更容易引起基因表达量的变化。研究表明,结构变异是表型差异的基础,且基于SVs的GWAS分析可以挖掘基于传统SNPs的研究中未发现的重要遗传变异位点。

三、PAV-GWAS挖掘基于SNP-GWAS未发现的油菜荚果长度、种子重量和开花时间相关的结构变异[3]

文章名称:Eight high-quality genomes reveal pan-genome architecture and ecotype differentiation of  Brassica napus

发表期刊:Nature Plants

发表单位:华中农业大学等

影响因子:13.256

发表时间:2020年1月

1. 研究背景

甘蓝型油菜是一种具有复杂基因组的异源四倍体作物,在不同的材料和生态型中有广泛的基因组和表型变异。在对季节变化(如春化要求、抗寒性和光周期等)反应的驱动下,甘蓝型油菜已被驯化的具有各种特性,但是其巨大的表型变异背后的遗传多样性还有很多未知。

2. 材料方法

通过全基因组比较分析整合8个甘蓝型油菜材料的PAVs组合,鉴定了16个巢式关联群体(NAM)亲本系的PAV基因型,并根据高密度的遗传连锁图谱将其比对到2141个重组自交系(RILs)上。

3. 研究结果

通过泛基因组比较分析,共鉴定出77.2~149.6 Mb的存在和缺失变异(PAVs),其中超过9.4%的基因包含大的效应突变或结构变异。为探索SVs对性状变异的贡献,基于油菜NAM群体(共包含27,216个PAVs)进行了PAV-GWAS分析。角果长度及种子重量是产量相关的重要性状,A09染色体上的峰值区域为先前报道的由传统数量性状定位和图位克隆确定的区域,但没有相关的SNP位于靶基因 BnaA9.CYP78A9  的调节区或编码序列中,PAV-GWAS直接检测到了 BnaA9.CYP78A9  启动子区上游3.9 kb的CACTA-like TE插入,被确定为角果长度和种子重量的因果变异。在8个油菜品种中,Gangan和ZS11 在 BnaA9.CYP78A9  的上游有TE插入,这两个品种显示出比其他品种明显更长的角果长度和更大的种子。

开花是植物从营养生长转为生殖生长的关键过程,与产量密切相关。PAV-GWAS分析发现了直接位于开花抑制因子 BnaA02.FLC  和 BnaA10.FLC  内的峰值PAV,A02上的PAV峰值是 BnaA02.FLC 第六外显子的hAT的插入导致,在冬季和春季环境中,具有这种824bp PAV的NAM RILs比没有它的开花更早。A10的PAV峰是 BnaA10.FLC  启动子区的hAT插入导致,该位点在以前的近1000份油菜SNP-GWAS中没有报道。在春季环境中,有这种4421bp hAT插入的NAM RILs比没有的开花晚。

结果表明,PAV-GWAS直接确定了以ZS11为供体的巢式关联作图群体中角果长度、种子重量和开花时间的因果结构变异,而SNP-GWAS没有检测到这些变异,表明PAV-GWAS在确定与性状的关联方面与SNP-GWAS互补。

四、SV-GWAS揭示基因组结构变异对桃果实形状的影响[4]

文章名称:Genome structure variation analyses of peach reveal population dynamics and a 1.67 Mb causal inversion for fruit shape

发表期刊:Genome Biology

发表单位:北京市农林科学院等

影响因子:10.806

发表时间:2021年1月

1. 研究背景

桃树起源于中国,距今已有2百万年,在其8,500年的驯化过程中,其果实大小,形状,颜色,质地和风味的表型差异很大。桃已经被作为多年生果树的模式植物广泛开展遗传研究,然而,其全基因组SVs的表征及其潜在的表型影响仍是一个主要尚未开发的领域。

2. 材料方法

选择主要产区的桃品种(共149份材料,产区包括华北,西北,华南,西南,日本,美洲和欧洲)进行全基因组重测序。

3. 研究结果

研究者构建了高质量的SVs图谱,包含27,734个SVs,总共覆盖RYP1基因组的约16.10%(~38.49 Mb),表明桃基因组含有丰富的结构变异。果实形状是栽培桃中极有价值的农艺性状,使用SNP-GWAS分析得到多个与果形相关的强SNPs信号映射到“S”基因座。然而,最近的群体规模研究表明,基于SNP-GWAS所报道的基因的突变显然不足以解释某些品种的扁平果形性状,该性状的遗传基础值得进一步研究。基于SV-GWAS分析,鉴定出最重要的关联是在“S”基因座处从27,959,880 bp到29,634,101 bp的1.67-Mb杂合倒位,覆盖了主要SNPs,与果实扁表型共分离,所有37个扁平果种均携带该倒位的衍生等位基因,而所有99个圆形果种均携带祖先等位基因。

不可否认,基于SNP-GWAS代表了一种强大的研究策略,可用于识别植物性状的遗传变异。但仅使用SNP-GWAS,则无法鉴定出这种与扁平果相关的1.67-Mb杂合倒位。也就是说,对于已知由大型SVs引起的重组率降低和搭便车效应,SNP-GWAS几乎可以肯定会错过,就像该1.67-Mb杂合倒置的发现可以明显解释主要的农业上重要的水果形状表型。

五、小结

研究表明,尽管SVs在表型形成中作用还需要更多的研究,但是可以肯定的是,当探究表型变异背后的遗传多样性机制时,结构变异是必须要考虑的因素。上述研究也证实了SV-GWAS提供了一种有效的策略来鉴定关键的候选基因,且基于SV-GWAS比SNP-GWAS对某些候选基因的鉴定更加有效,为后续优异基因资源的发掘提供了重要参考。扒一扒近期发表的动植物群体文章,不难发现基于SV-GWAS的研究频现登陆各大高分期刊,可参见下表:

随着测序技术的不断进步,识别基因组中结构变异的程度和影响变得越来越可行,特别是三代测序技术的发展,使全基因组范围内产生准确的长读长数据变得更容易。

上述案例研究提供了利用SVs如何驱动植物科学中基本功能发现的重要方法,对未来分子辅助育种和遗传改良具有重要的指导意义。总而言之,动植物群体SV-GWAS的研究思路已经准备就绪,文章蓄势待发,风口已然来临,还在等什么,赶紧上车哟!

参考文献:

1. Liu Y, Du H, Li P, et al. Pan-Genome of Wild and Cultivated Soybeans[J]. Cell, 2020, 182(1):162-176.

2. Yang N, Liu J, Gao Q, et al. Genome assembly of a tropical maize inbred line provides insights into structural variation and crop improvement[J]. Nature Genetics, 2019, 51(6):1052-1059.

3. Song J M, Guan Z, Hu J, et al. Eight high-quality genomes reveal pan-genome architecture and ecotype differentiation of Brassica napus[J]. Nature Plants, 2020, 6(1): 34-45.

4. Guan J, Xu Y, Yu Y, et al. Genome structure variation analyses of peach reveal population dynamics and a 1.67 Mb causal inversion for fruit shape[J]. Genome Biology, 2021, 22(1): 13.

5. Zhou H, Ma R, Gao L, et al. A 1.7-Mb chromosomal inversion downstream of a PpOFP1 gene is responsible for flat fruit shape in peach[J]. Plant Biotechnology Journal, 2021, 19(1): 192-205.

6. Alseekh S, Scossa F, Fernie A R. Mobile transposable elements shape plant genome diversity[J]. Trends in Plant Science, 2020, 25(11): 1062-1064.

7. Guo J, Cao K, Deng C, et al. An integrated peach genome structural variation map uncovers genes associated with fruit traits[J]. Genome Biology, 2020, 21(1): 258.

8. Li X, Yang J, Shen M, et al. Whole-genome resequencing of wild and domestic sheep identifies genes associated with morphological and agronomic traits[J]. Nature Communications, 2020, 11(1): 2815.

9. Yu Y, Fu J, Xu Y, et al. Genome re-sequencing reveals the evolutionary history of peach fruit edibility[J]. Nature Communications, 2018, 9(1):5404.

来看看几篇Nature上的GNN吧~

大家好!我是Charmve

随着该领域的成熟,图神经网络论文的数量也在增长,作者仔细研究了一些科学应用,并收集了几篇发表在Nature上的GNN论文。

我们周围的很多信息都可以用图表来表示。一个例子是城市道路网络,其中交叉口是节点,道路是链接。另一个是调控网络,它描述了不同基因如何相互作用以增强或抑制某些细胞功能。图神经网络(GNN)可以处理基于图的信息以进行预测。在在 2022 年 3 月 23 日的《Nature Machine Intelligence》的一篇论文中,Xue Jiawei 团队基于全球 30 个城市的城市道路网络拓扑特征,使用 GNN 研究和预测社会经济特征。

论文链接:https://www.nature.com/articles/s42256-022-00462-y

十多年前,GNN 作为一种处理复杂数据的方法出现了,这些数据最好表示为对象之间的许多链接和依赖关系的图。卷积神经网络(CNN)擅长处理图像、文本或视频等数据。这些可以被认为是简单的图形或固定大小和形状的序列。

但我们周围的大部分数据都采用更复杂的不规则大小和形状的图形形式,例如社交网络、道路网络、基因组数据或分子相互作用。CNN 难以处理这种形式的数据,而这正是 GNN 的用武之地。它们学习对图中每个节点的局部环境信息进行编码。GNN 可以在整个图的级别上执行预测或分类任务,也可以针对每个节点或边执行预测或分类任务。

基于图的深度学习在许多领域都取得了成功,从推荐系统到交通时间预测。但 GNN 也已被证明可用于科学应用,例如基因组学、分子设计、药物开发和物理模拟。在 Schulte-Sasse 团队最近的一篇论文中可以找到一个有前景的基因组学示例。

论文链接:https://www.nature.com/articles/s42256-021-00325-y

在过去的二十年里,高通量测序技术与表观遗传和转录组分子数据相结合,为基因组学提供了丰富的信息,其中一些可以被挖掘来识别致癌基因。

近年来,癌症基因如何导致细胞生长的图景变得更加复杂:癌症可以通过DNA序列水平上基因突变以外的多种途径发生,表观遗传机制或调控区域中间接激活或沉默其他基因的非编码突变也可以发挥作用。多组学数据集可以阐明这些过程。

数据可以建模为生物网络或图形,其中节点代表基因,链接代表基因-基因相互作用。研究人员使用了一种高级类型的 GNN——图卷积网络——它可以根据节点特征向量和网络拓扑对网络中未标记的节点进行分类。通过他们的方法,利用多维多组学节点特征以及蛋白质-蛋白质相互作用网络的拓扑特征,不仅可以识别高度突变的癌症基因,还可以识别包含其他类型改变的基因,或与其他癌症基因相互作用的基因。该研究将来自 16 种癌症类型的基因组数据输入该方法,确定了 165 个可能导致癌症的新候选基因。

Schulte-Sasse 团队使用的机器学习方法——带有图卷积网络的半监督分类——由 Kipf 和 Welling 于 2017 年的一篇开创性论文中被引入。

论文链接:https://arxiv.org/abs/1609.02907

在过去的 5 年里,它刺激了基于图的机器学习的许多进步。Haghir Chehreghani 在 2022 年 3 月 23 日的《Nature Machine Intelligence》发表的一篇新闻与观点文章重点介绍了这篇论文,并讨论了该方法的效率、可解释性和可扩展性。

论文链接:https://www.nature.com/articles/s42256-022-00466-8

分子预测和药物发现是基于图的方法的另一个领域。几十年来,该领域以各种创造性的方式使用机器学习,与表示分子的不同方法相关联。一种方法是将分子表示为线性字符串(也称为「简化的分子输入行输入系统」或「SMILES」),这适用于自然语言处理中的深度学习方法。

或者说,为了保留分子的拓扑信息,可以将它们表示为图,以原子为节点,以键为链接。Wang Yuyang 团队最近的一篇论文。描述了一种基于自我监督 GNN 的方法,以解决与潜在生物活性分子的巨大空间(被认为是 10^60 级)相比,分子标记数据相对稀缺的问题。研究人员的框架在一个包含大约 1000 万个分子的大型未标记数据集上进行了训练,并学习了可用于区分化学性质的分子表示。

论文链接:https://www.nature.com/articles/s42256-022-00447-x

考虑到具有相同拓扑结构的分子的不同异构体可能具有不同的化学性质,可以添加到分子图形表示中的另一个组件是它们的几何结构。Fang xiaomin 团队最近的一篇论文。描述了如何在几何增强的 GNN 方法中对分子的拓扑结构和几何结构进行编码可以改进分子特性预测。

论文链接:https://www.nature.com/articles/s42256-021-00438-4

正如 Chehreghani 所强调的,仍然需要为 GNN 开发一个更好的理论框架,并更好地理解它们的局限性。鉴于越来越多的复杂、高度连接的数据,更基础的理解将刺激 GNN 在许多领域的进一步令人兴奋的应用。

该社论以「The graph connection」为题,于 2022 年 3 月 23 日发布在《Nature Machine Intelligence》。

参考内容:https://www.nature.com/articles/s42256-022-00476-6

更多细节可参考论文原文,更多精彩内容请关注迈微AI研习社,每天晚上七点不见不散!

© THE END 

投稿或寻求报道微信:MaiweiE_com

GitHub中文开源项目《计算机视觉实战演练:算法与应用》,“免费”“全面“”前沿”,以实战为主,编写详细的文档、可在线运行的notebook和源代码。

  • 项目地址 https://github.com/Charmve/computer-vision-in-action

  • 项目主页 https://charmve.github.io/L0CV-web/

推荐阅读

(更多“抠图”最新成果)

迈微AI研习社

微信号: MaiweiE_com                             GitHub: @Charmve

CSDN、知乎: @Charmve                        投稿: yidazhang1@gmail.com

个人主页: github.com/Charmve

如果觉得有用,就请点赞、转发吧!

以上是关于还在做SNP-GWAS?来看看SV-GWAS吧!的主要内容,如果未能解决你的问题,请参考以下文章

你还在为面试老问你JVM发愁?来看看阿里P7大佬的JVM笔记吧

CSDN浏览器助手新版本 9 月强势上线!快来看看新增了哪些新功能!!

CSDN浏览器助手新版本 9 月强势上线!快来看看新增了哪些新功能!!

还在纠结报表工具的选型么?来看看这个

javaer你还在手写分表分库?来看看这个框架怎么做的 干货满满

还在为写调查问卷发愁的你赶快来看看这个自动填写问卷(问卷星版)