HaploView使用-OutofMemory

Posted 2023-03-23

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了HaploView使用-OutofMemory相关的知识，希望对你有一定的参考价值。

参考技术A 之前给大家介绍过如何使用haploview软件进行单倍型分析及LD单倍型图形数据的导出。该软件在运行后可以输出位点的统计结果、LD分布以及单倍型相关信息。

导入数据后自动计算位点的maf、缺失等信息，会汇总成统计表，可以导出，示例如下

统计结果中，标红的部分是未通过过滤的位点，系统会自动全选所有通过过滤的位点参与单倍型的计算。图片下方显示的是参数设置窗口，可自行输入阈值，点击Rescore Markers即可重新统计。

ps：上图中Advanced Views中会显示表中没有的统计结果，比如样本的缺失率等，可以自行查看；此外，这些统计数据都可以导出

软件会自动根据输入的数据绘制对应LD-Block区域的单倍型块结果，所有统计以及图片结果都可以导出保存，示例如下

LD导出数据：

单倍型块数据Haplotypes：

当位点数目或者选择的目标区间比较小时，一般使用默认参数运行即可，不会出现太大问题。当位点数目太多或者强连锁的区域太长时，导入数据时会遇见一下错误。

遇见这种问题一般有两点，一个是数据量太大，一个是位点间强连锁区域太长。

对于数据量问题，文章中给出的了参考示例，1.8 GHz Pentium 4处理器加1 GB内存,可以轻松处理400样本的200位点，对于大样本、多位点的情况，推荐使用命令行操作，我觉得最好在资源较多的服务器上操作。

如果位点太多，可以考虑先用其他软件算一下连锁情况，分区间提取位点进行单独分析

最近遇到了这种问题，我测试的数据集有905位点，区间50k左右，一直出现内存超限的问题，后来发现是连锁区域太长的原因。对于这种问题，可以在导入数据的时候，减小联锁区间的阈值。

界面上 Ignore pairwise... 对应的参数就是连锁区间设定的阈值，可以适当调小。这种情况下，本应该是同一个连锁区域的两端会分开，后续需要进行更正。

参考文献：

[1] https://academic.oup.com/bioinformatics/article/21/2/263/186662

以上是关于HaploView使用-OutofMemory的主要内容，如果未能解决你的问题，请参考以下文章

haploview出现"invalid affected status"的解决方法

haploview出现“more than two alleles”的解决方法

haploview出现“results file must contain a snp column”的解决方法

LD连锁不平衡介绍

连锁不平衡（LD）分析

群体遗传分析—LD连锁不平衡