哪种算法适用于遗传学重复数据?

Posted

技术标签:

【中文标题】哪种算法适用于遗传学重复数据?【英文标题】:Which algorithm is good for genetics duplicated data? 【发布时间】:2015-10-19 17:03:48 【问题描述】:

我的问题与为我的数据集找到最佳算法有关。

我的数据包含三列,即个人、疾病和测试分数(我有 50 个测试分数特征,但这里只提到了一个测试分数特征)。 我有 3000 个人,疾病特征的可能值是 disA、disB 和 disC,其中测试分数是离散变量。 疾病特征是我的类属性。

一个人最多可以患有三种不同的疾病,但只有一个测试分数值。 我的目标是根据疾病对考试成绩进行分类 (哪些考试成绩与哪种疾病有关) 但这里的问题是,如果一个人患有三种疾病,那么所有的考试成绩都将重复三次。 例如,对于单个 aa(包含所有 disA、disB 和 disC)测试分数为 12。然后分析文件将如下所示

individuals, Disease, Test Score
aa,disA,12,...
aa,disB,12,...
aa,disC,12,...

这将导致有偏见的分析。 是否有针对此类数据的任何数据挖掘算法或统计测试? 我无法删除这些患者,因为它们是数据集的最高比例。

【问题讨论】:

您可以将此问题移至datascience.stackexchange.com 【参考方案1】:

为什么不将问题重新定义为从测试分数到疾病集的一步映射?使用您的示例,下面的第一行数据显示“aa”患有所有疾病,而“bb”仅患有 A 疾病。

individuals, DiseaseA, DiseaseB, DiseaseC, Test Score
aa,true,true,true,12
bb,true,false,false,10

【讨论】:

我是这个领域的新手。但我有点担心这次重铸。例如,如果我有很多人喜欢 aa(所有疾病都如此),那么疾病 A、B 和 C 变量之间不会有显着差异。【参考方案2】:

我会使用 reshape 包中描述的 Hadley Wickham 设计的以下格式:

http://had.co.nz/reshape/

http://www.jstatsoft.org/v21/i12

例子:

individuals, variable, value
aa,disease,disA
aa,disease,disB
aa,disease,disC
aa,testscore,12

【讨论】:

以上是关于哪种算法适用于遗传学重复数据?的主要内容,如果未能解决你的问题,请参考以下文章

遗传算法问题

哪种最大选择算法更快? (哈斯克尔)[重复]

在不知道 k 的情况下,哪种聚类算法适用于一维 Lists?

存储经度和纬度值需要哪种数据类型[重复]

查询适用于 phpMyAdmin,但不适用于 Java [重复]

Javascript函数仅适用于表格的第一行[重复]