矩阵 TFIDF 的降维

Posted

技术标签:

【中文标题】矩阵 TFIDF 的降维【英文标题】:dimension reduction of matrix TFIDF 【发布时间】:2011-07-25 16:21:43 【问题描述】:

我计算了 TFIdf(词频,逆文档频率),我发现在这一步之后,有必要使用 LSI 、卡方检验等方法来减少 My Matrix 的维数...,

我不知道如何在 Java 中实现卡方检验以降低矩阵 TFIDF 的维数,如果有一些库可以执行此操作或教程中解释了我如何执行此操作,请告诉我

【问题讨论】:

你使用的是稀疏矩阵表示吗? 嗨,是的 larsmans,我计算了文档中每个术语的权重,为了减少,我使用了文档频率的方法,我删除了所有术语:如果文档频率 【参考方案1】:

为 LSA、LDA 使用 gensims 库。 它实际上可以对任何大型数据集执行 LSA。它不会一次将整个语料库加载到内存中,而是进行惰性读取。

【讨论】:

Gensim 很棒,但我相信 OP 正在寻找 Java 解决方案。 Gensim 适用于 Python。【参考方案2】:

我认为你不想做卡方;这不是一种降维技术。

您要做的是 SVD,即奇异值分解。这就是 LSI/LSA 中用于降维的技术。

Wikipedia 建议在 Java 中为 LSA 使用一个名为“S-Space Pacakage”的库。我自己没用过,但你可能想研究一下。

http://code.google.com/p/airhead-research/

【讨论】:

以上是关于矩阵 TFIDF 的降维的主要内容,如果未能解决你的问题,请参考以下文章

降维

sklearn的PCA

常用降维方法之PCA 和 LDA

推荐系统笔记: 基于邻居的协同过滤问题 中的降维

任务5 图像的读取及表示 图像的特征 图片特征的降维

跟我学算法-pca(降维)