一次性计算多个表型的遗传相关性(LDSC, GCTA)

Posted 2023-05-02

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了一次性计算多个表型的遗传相关性(LDSC, GCTA)相关的知识，希望对你有一定的参考价值。

参考技术A 遗传相关的计算之前介绍过几次了，感兴趣的翻之前的推文：

1、利用GCTA工具计算复杂性状/特征（Complex Trait）的遗传相关性（genetic correlation）

2、 LD SCore计算基因多效性、遗传度、遗传相关性

之前的两篇推文均有一个小局限，就是针对多个表型间的遗传相关性计算没有介绍。

因此，本次推文是作为一个补充。

对于LDSC，多表型间的遗传相关性计算很简单，假设存在trait1、trait2、trait3、trait4四个表型，其对应的sumstats格式文件为：
trait1.sumstats.gz , trait2.sumstats.gz , trait3.sumstats.gz , trait4.sumstats.gz 。

（sumstats格式文件不了解？见推文 LD SCore计算基因多效性、遗传度、遗传相关性）

现在想要计算trait1、trait2、trait3、trait4四个表型两两之间的遗传相关性，则直接输入命令：

GCTA一次只能计算某个表型（例如trait1）与其他所有表型（例如trait2、trait3、trait4）的遗传相关性。

pheno.txt 文件的格式如下所示：

先计算trait1与trait2、trait3、trait4的遗传相关性：

计算trait2与trait1、trait3、trait4的遗传相关性：

其他的以此类推。

其实也可以在for里面再套一个for循环，这样就能一次性计算完所有的表型间的遗传相关性。

人工智能，大数据技术，机器学习，深度学习

我们重新认识一下人工智能，大数据技术，机器学习，深度学习.....

　　大数据技术：大数据技术的体系庞大，基础技术包括数据采集，数据预处理，数据仓库等。利用大数据技术对基因库，表象特征库进行数据平台搭建与共享，能够为育种技术的发展提供足够的数据支持;

　　机器学习：是指利用人工智能模型对数据集合中的规律进行挖掘，并根据其特征对其他数据进行预测。明确遗传分子和表型性状之间的相关性，需要借助机器学习模型来帮助，通过大通量的数据学习，合格的机器学习模型能够更精准的挖掘出遗传分子和性状之间的关联，从而基于基因型对表型进行更精准的预测;

　　深度学习：是指利用多层神经网络对数据的特征进行挖掘，并对数据进行合理预测。深度学习模型突破了机器学习基于线性模型的限制，在某个基因上学到的特征能够有效的运用到相似分子机制的基因，从而能够更有效的预测低频罕见变异的表型应;

　　高维数据聚类：将高维数据进行归纳分组，属于无监督学习。基因数据和表象蛋白质数据都属于高维数据，将基因和蛋白质数据进行聚类分析，能够较为有效的提取基因家族和蛋白质家族成员之间的相关性，对于整个基因家族进行分析优化优于对单点基因进行分析，既节省了数据处理难度，又能够揭示更本质的生物学原理;

　　计算机视觉：是指机器代替人眼对目标进行识别、跟踪和测量，并进一步进行图像处理的技术。利用计算机进行农作物生长情况的数据采集，并将采集到的数据运用到人工智能模型的训练上，搭建虚拟种植系统，能够有效的缩短育种的时间和经济成本。

以上是关于一次性计算多个表型的遗传相关性(LDSC, GCTA)的主要内容，如果未能解决你的问题，请参考以下文章