使用 R 中的 wordcloud 从聚类向量中显示单个 kmeans 聚类

Posted

技术标签:

【中文标题】使用 R 中的 wordcloud 从聚类向量中显示单个 kmeans 聚类【英文标题】:Display individual kmeans clusters from the clustering vector using wordcloud in R 【发布时间】:2013-11-04 12:36:03 【问题描述】:

我在 R 中从一个文档项矩阵创建了一个 k-means 集群。聚类向量如下:

 doc1.txt doc10.txt doc11.txt doc12.txt doc13.txt doc14.txt doc15.txt 
        3         3         3         3         1         3         3 
doc16.txt doc17.txt doc18.txt doc19.txt  doc2.txt doc20.txt doc21.txt 
        3         3         3         2         3         3         3 
doc22.txt doc23.txt doc24.txt doc25.txt doc26.txt doc27.txt doc28.txt 
        3         3         3         3         3         3         3 
doc29.txt  doc3.txt doc30.txt  doc4.txt  doc5.txt  doc6.txt  doc7.txt 
        3         3         3         1         1         1         3 
 doc8.txt  doc9.txt 
        3         3  

document-term 矩阵如下:

     term1  term2  term3  term4  term4 
doc1   5      3     2      1      4
doc2   3      4     12     11     21
doc3   2      3     4      12     16
doc4   1      3     0      10     15
doc5   4      10    0      20     4
  .  
  .
  .

我的问题是我如何访问集群 3 中所有文档的数据并返回一个矩阵! 我正在尝试使用 wordcloud 从集群 3 中的所有文档中绘制术语 min.freq = 3 的频率。

非常感谢

【问题讨论】:

【参考方案1】:

如果你的簇标签向量叫clusters,可以使用

docs3 <- gsub(".txt","",names(which(clusters==3)))

如果您的术语文档矩阵称为 DTM,您可以通过

获取集群 3 中文档的子矩阵
DTM3 <- DTM[docs3,]

【讨论】:

这对我有用。出了什么问题?修改您的问题以包含可重现的示例,我将修改答案以解决您的特定问题。 对不起我的错误。这工作忘记了我的 dtm 还存储了“.txt”,我也必须把它放在问题中。感谢您的回答,已接受!

以上是关于使用 R 中的 wordcloud 从聚类向量中显示单个 kmeans 聚类的主要内容,如果未能解决你的问题,请参考以下文章

从聚类中获得的标签在视觉上看起来不正确

R中的相关聚类

聚类和绘制词向量 - python 或 R

R语言独立成分分析fastICA谱聚类支持向量回归SVR模型预测商店销量时间序列可视化

对 TF-IDF 特征向量中的特定特征进行加权,用于 k-means 聚类和余弦相似度

词云绘制wordcloud