3.1 GWAS:表型鉴定与记录的基本原则和原始数据处理

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了3.1 GWAS:表型鉴定与记录的基本原则和原始数据处理相关的知识,希望对你有一定的参考价值。

参考技术A 精确的表型检测是关联分析的关键,GWAS对数量性状和质量性状都适用。

极大或极小的异常值可能引起关联结果的异常,在分析前需要去除。

基于全基因组测序数据鉴定结构变异的四大类算法总结

技术图片
不同类型的基因组变异示意图(图片来源:labspaces)

 

上次给大家总结介绍了基因组单核苷酸多态性(single nucleotide polymorphism,SNP)的鉴定方法,今天给大家介绍结构变异(structural variations,SV)的种类及基于基因组测序数据的鉴定方法。

因为结构变异是造成物种表型差异的一个重要原因,且与各类疾病,特别是癌症的发生、发展紧密相关,因此研究结构变异非常重要。

 

结构变异通常是指长度大于1Kb的基因组序列变异,包括多种不同的类型:插入(insertion)、缺失(deletion)、反转(inversion)、异位(translocation)、拷贝数变异(copy number variation,CNV或者duplication)(更多精彩请关注微信公众号:AIPuFuBio)。

具体如下示意图所示:

技术图片
不同类型结构变异的示意图(图片来源:Alkan et al., Nature Review Genetics, 2011.)注:Ref.代表的是参考基因组(reference)

 

以前,芯片(array)是检测全基因组范围结构变异非常流行的手段,但现在随着测序价格的不断下降,以及测序技术的优势(特别是单碱基分辨率),全基因组测序已成为检测全基因组范围内结构变异的首选。

下面给大家逐一介绍一下基于基因组测序数据检测结构变异的四大类方法

1. paired-end mapping (PEM),基于双端测序读段匹配;

2. split read mapping (SRM),基于read分割匹配;

3. depth of coverage (DOC),基于read的覆盖度;

4. assembly-based approach (ASA),基于组装的方法;

具体如下图所示:

技术图片
不同类型结构变异的检测方法适用性示意图(图片来源:Alkan et al., Nature Review Genetics, 2011)

 

从上图中可以看出,这四大类方法并不是适合所有类型的基因组结构变异检测,其中:

1. 基于Read pair,即基于双端测序读段匹配(paired-end mapping)的方法,适用于所有类型的基因组结构变异检测;

2. 基于Read depth,即基于read的覆盖度(depth of coverage,DOC),主要适用于缺失(deletion)和duplication(重复或拷贝数变异)这两大类型的结构结构变异检测;

3. 基于Split read,即基于read分割匹配(split read mapping,SRM),这种方法也适合于所有类型的基因组结构变异检测;

4. 基于Assembly,即基于组装的方法(assembly-based approach,ASA),这种方法也适合于所有类型的基因组结构变异检测;

虽然这四类方法可以用于检测不同类型基因组结构变异,但每种检测方法都有各自的优缺点。具体体现在不同方法的检测精度、可检测结构变异的大小范围、还有复杂度等有一定的区别。

 

如虽然四类方法都可检测拷贝数变异(copy number variation,CNV),但各类方法的检测准确性和可检测的CNV大小是有明显差别的,具体如下图所示:

技术图片
四类方法检测CNV的准确性和CNV大小的比较(图片来源:Hehir-Kwaet al, Exper Rev Mol Diagn, 2015)

 

由上图可知,四类方法在检测CNV时,它们的检测准确性和可检测的CNV大小明显不同。其中基于read的覆盖度(depth of coverage,DOC)的方法虽然可检测比较大的CNV,但其检测精度较低,而基于read分割匹配(split read mapping,SRM)的方法虽然检测CNV的精度高,但检测的CNV长度通常偏小。

所以,这四类方法在检测基因组结构变异时有各自的长项和短处,是相互补的,可以联合起来使用,以提高结构变异检测范围和精度。

 

那么检测各类结构变异比较好的软件或工具有哪些呢?下图列出了一些性能比较好的结构变异检测软件,具体如下所示:

技术图片
在模拟数据和真实数据中检测各类结构变异比性能较好的软件展示(图片来源:Kosugi et al. Genome Biology, 2019)。注:DEL为deletion,DUP为duplication,INS为Insertion,INS Unspecified为insertions of unspecified sequence,MEI为mobile element insertions,INV为Inverstion
 

总的来说,不同软件或算法在检测结构变异时,它们的检测准确性主要依赖于检测的结构变异类型和结构变异的大小,而且不同软件有各自的强项和弱项,联合使用不同的方法可有效提高检测结构变异的精度和覆盖更广的结构变异长度范围。(更多精彩,可见大型免费综合生物信息学资源和工具平台AIPuFu:www.aipufu.com,关注微信公众号:AIPuFuBio)。

 

希望今天的内容对大家有用,会持续更新经典内容,欢迎留言~~!

 

以上是关于3.1 GWAS:表型鉴定与记录的基本原则和原始数据处理的主要内容,如果未能解决你的问题,请参考以下文章

GWAS之表型最优无偏预测(BLUP)与遗传力计算

【豆科基因组】大豆适应性位点GWAS分析[转载]

GWAS分析- P值计算过程 (七)

常用GWAS统计方法和模型简介

多表型大文件GWAS结果使用R语言提取汇总

GWAS基本概念2