矩阵 TFIDF 的降维
Posted
技术标签:
【中文标题】矩阵 TFIDF 的降维【英文标题】:dimension reduction of matrix TFIDF 【发布时间】:2011-07-25 16:21:43 【问题描述】:我计算了 TFIdf(词频,逆文档频率),我发现在这一步之后,有必要使用 LSI 、卡方检验等方法来减少 My Matrix 的维数...,
我不知道如何在 Java 中实现卡方检验以降低矩阵 TFIDF 的维数,如果有一些库可以执行此操作或教程中解释了我如何执行此操作,请告诉我
【问题讨论】:
你使用的是稀疏矩阵表示吗? 嗨,是的 larsmans,我计算了文档中每个术语的权重,为了减少,我使用了文档频率的方法,我删除了所有术语:如果文档频率 【参考方案1】:为 LSA、LDA 使用 gensims 库。 它实际上可以对任何大型数据集执行 LSA。它不会一次将整个语料库加载到内存中,而是进行惰性读取。
【讨论】:
Gensim 很棒,但我相信 OP 正在寻找 Java 解决方案。 Gensim 适用于 Python。【参考方案2】:我认为你不想做卡方;这不是一种降维技术。
您要做的是 SVD,即奇异值分解。这就是 LSI/LSA 中用于降维的技术。
Wikipedia 建议在 Java 中为 LSA 使用一个名为“S-Space Pacakage”的库。我自己没用过,但你可能想研究一下。
http://code.google.com/p/airhead-research/
【讨论】:
以上是关于矩阵 TFIDF 的降维的主要内容,如果未能解决你的问题,请参考以下文章