R中的余弦相似度矩阵

Posted

技术标签:

【中文标题】R中的余弦相似度矩阵【英文标题】:Cosine Similarity Matrix in R 【发布时间】:2021-08-20 23:55:11 【问题描述】:

我有一个使用“tm”包在 R 中创建的文档术语矩阵“mydtm”。我试图描述 dtm/corpus 中包含的 557 个文档之间的相似之处。我一直在尝试使用余弦相似度矩阵: mydtm_cosine Output Matrix

【问题讨论】:

您是否尝试过删除停用词、词干以减少词性的数量?文件很短吗?如果它们不同时出现,则无法定义相似性。 @CSJCampbell 是的,我已经进行了词干提取、数字删除、空白等操作。 【参考方案1】:

您的文档之间可能很少出现单词。您可能希望减少术语文档矩阵中的单词。

text <- c("term-document matrix is a mathematical matrix", 
    "we now have a tidy three-column",
    "cast into a Term-Document Matrix",
    "where the rows represent the text responses, or documents")
corpus <- VCorpus(VectorSource(text))
tdm <- TermDocumentMatrix(corpus, 
    control = list(wordLengths = c(1, Inf)))
occurrence <- apply(X = tdm, 
    MARGIN = 1, 
    FUN = function(x) sum(x > 0) / ncol(tdm))
occurrence
#            a          cast     documents          have 
#         0.75          0.25          0.25          0.25 
#         into            is  mathematical        matrix 
#         0.25          0.25          0.25          0.50 
#          now            or     represent    responses, 
#         0.25          0.25          0.25          0.25 
#         rows term-document          text           the 
#         0.25          0.50          0.25          0.25 
# three-column          tidy            we         where 
#         0.25          0.25          0.25          0.25 

quantile(occurrence, probs = c(0.5, 0.9, 0.99))
#    50%    90%    99% 
# 0.2500 0.5000 0.7025 

tdm_mat <- as.matrix(tdm[names(occurrence)[occurrence >= 0.5], ])
tdm_mat
#                Docs
# Terms           1 2 3 4
#   a             1 1 1 0
#   matrix        2 0 1 0
#   term-document 1 0 1 0

然后您可以计算余弦相似度。

library(proxy)
dist(tdm_mat, method = "cosine", upper = TRUE)
#                       a    matrix term-document
# a                       0.2254033     0.1835034
# matrix        0.2254033               0.0513167
# term-document 0.1835034 0.0513167              

【讨论】:

以上是关于R中的余弦相似度矩阵的主要内容,如果未能解决你的问题,请参考以下文章

余弦相似度计算

余弦相似度

20-余弦相似度及其R实现

具有numpy的大型稀疏矩阵的余弦相似度

在给定稀疏矩阵数据的情况下,Python 中计算余弦相似度的最快方法是啥?

使用 quanteda 在 R 中的大型语料库上计算余弦相似度