在 R 中创建集群

Posted

技术标签:

【中文标题】在 R 中创建集群【英文标题】:Create clusters in R 【发布时间】:2017-03-02 08:37:46 【问题描述】:

我有一个看起来像这样的 df:

selection.body selection.hair selection.eyes selection.breasts selection.butt selection.skin         
normal         blonde          other             large         medium         tanned
normal         blonde          other                xl         medium         tanned
normal         blonde          other             large         medium         tanned
chubby         blonde           blue                xl          large         tanned
slim           blonde          other            medium          small          white

让我们把这个数据集想象成一个调查的答案:

每一行代表单个响应者的选择,从一组封闭的偏好中选择他的偏好。

我已经做的是检查每个选择的频率,但我想继续前进。

我的目标是:

找出最常见的选择组合。

根据这种组合对用户进行分组。

选择之间的相关性

感谢您的提示。

【问题讨论】:

试试data.table。以下语法应该足以回答前两个问题:dt[,.(Count = .N),.(col1, col2... etc)]。对于第三个问题,请尝试来自 base 的 ?corcorrplot 包。 在我看来你只是把你的任务交给了别人! 我没有要求任何代码。我只是要求进行头脑风暴并有开始的提示。在我看来,你手头有很多时间 【参考方案1】:

寻找最常见的组合不是聚类,而是频繁项集挖掘。

你试过先验吗?

【讨论】:

我想出的是找到多个分类变量之间的相关性,使用 MASS 的对数线性模型,然后是以下马赛克图:cran.r-project.org/web/packages/vcdExtra/vignettes/…。很有用。但实际上它不是集群。先验是什么?

以上是关于在 R 中创建集群的主要内容,如果未能解决你的问题,请参考以下文章

如何首先在代码中创建集群键

AWS-CLI:在从快照创建的现有集群中创建 RDS Aurora 数据库实例

在 Couchdb 2.1 集群中创建只读和只写用户

如何在 R 中创建聚类图?

在 R 中创建表达式树

如何在 R 中创建具有特定间隔的向量?