用于文档分类的 scipy/sklearn 稀疏矩阵分解

Posted

技术标签:

【中文标题】用于文档分类的 scipy/sklearn 稀疏矩阵分解【英文标题】:scipy/sklearn sparse matrix decomposition for document classification 【发布时间】:2014-12-02 16:03:00 【问题描述】:

我正在尝试对大型语料库(400 万个文档)进行文档分类,并且在使用标准 scikit-learn 方法时不断遇到内存错误。在清理/提取我的数据后,我有一个非常稀疏的矩阵,大约有 100 万个单词。我的第一个想法是使用 sklearn.decomposition.TruncatedSVD,但是由于内存错误,我无法执行足够大的 k 的 .fit() 操作(我能做的最大只占数据方差的 25% )。我尝试遵循 sklearn 分类here,但在进行 KNN 分类时仍然内存不足。 我想手动进行核外矩阵变换以将 PCA/SVD 应用于矩阵以降低维数,但需要一种方法来首先计算特征向量。我希望使用scipy.sparse.linalg.eigs 有没有一种方法可以计算特征向量矩阵以完成下面显示的代码?

from sklearn.feature_extraction.text import TfidfVectorizer
import scipy.sparse as sp
import numpy as np
import cPickle as pkl
from sklearn.neighbors import KNeighborsClassifier

def pickleLoader(pklFile):
    try:
        while True:
            yield pkl.load(pklFile)
    except EOFError:
        pass

#sample docs
docs = ['orange green','purple green','green chair apple fruit','raspberry pie banana yellow','green raspberry hat ball','test row green apple']
classes = [1,0,1,0,0,1]
#first k eigenvectors to keep
k = 3

#returns sparse matrix
tfidf = TfidfVectorizer()
tfs = tfidf.fit_transform(docs)

#write sparse matrix to file
pkl.dump(tfs, open('pickleTest.p', 'wb'))



#NEEDED - THIS LINE THAT CALCULATES top k eigenvectors   
del tfs

x = np.empty([len(docs),k])

#iterate over sparse matrix
with open('D:\\GitHub\\Avitro-Classification\\pickleTest.p') as f:
    rowCounter = 0
    for dataRow in pickleLoader(f):
        colCounter = 0
        for col in k:
            x[rowCounter, col] = np.sum(dataRow * eingenvectors[:,col])
f.close()

clf = KNeighborsClassifier(n_neighbors=10) 
clf.fit(x, k_class)

任何帮助或指导将不胜感激!如果有更好的方法来做到这一点,我很乐意尝试不同的方法,但我想在这个大型稀疏数据集上尝试 KNN,最好使用一些降维(这在我运行的小型测试数据集上表现非常好 -我不想因为愚蠢的内存限制而失去我的表现!)

编辑:这是我第一次尝试运行的代码,它引导我走上了自己的核外稀疏 PCA 实现的道路。任何有关修复此内存错误的帮助都会使这更容易!

from sklearn.decomposition import TruncatedSVD
import pickle

dataFolder = 'D:\\GitHub\\project\\'

# in the form of a list: [word sample test word, big sample test word test, green apple test word]
descWords = pickle.load(open(dataFolder +'descriptionWords.p'))

vectorizer = TfidfVectorizer()
X_words = vectorizer.fit_transform(descWords)

print np.shape(X_words)

del descWords
del vectorizer

svd = TruncatedSVD(algorithm='randomized', n_components=50000, random_state=42)
output = svd.fit_transform(X_words)

有输出:

(3995803, 923633)
---------------------------------------------------------------------------
MemoryError                               Traceback (most recent call last)
<ipython-input-27-c0db86bd3830> in <module>()
     16 
     17 svd = TruncatedSVD(algorithm='randomized', n_components=50000, random_state=42)
---> 18 output = svd.fit_transform(X_words)

C:\Python27\lib\site-packages\sklearn\decomposition\truncated_svd.pyc in fit_transform(self, X, y)
    173             U, Sigma, VT = randomized_svd(X, self.n_components,
    174                                           n_iter=self.n_iter,
--> 175                                           random_state=random_state)
    176         else:
    177             raise ValueError("unknown algorithm %r" % self.algorithm)

C:\Python27\lib\site-packages\sklearn\utils\extmath.pyc in randomized_svd(M, n_components, n_oversamples, n_iter, transpose, flip_sign, random_state, n_iterations)
    297         M = M.T
    298 
--> 299     Q = randomized_range_finder(M, n_random, n_iter, random_state)
    300 
    301     # project M to the (k + p) dimensional space using the basis vectors

C:\Python27\lib\site-packages\sklearn\utils\extmath.pyc in randomized_range_finder(A, size, n_iter, random_state)
    212 
    213     # generating random gaussian vectors r with shape: (A.shape[1], size)
--> 214     R = random_state.normal(size=(A.shape[1], size))
    215 
    216     # sampling the range of A using by linear projection of r

C:\Python27\lib\site-packages\numpy\random\mtrand.pyd in mtrand.RandomState.normal (numpy\random\mtrand\mtrand.c:9968)()

C:\Python27\lib\site-packages\numpy\random\mtrand.pyd in mtrand.cont2_array_sc (numpy\random\mtrand\mtrand.c:2370)()

MemoryError: 

【问题讨论】:

对于分类,特征选择可能比 LSA 更好。它的目标是准确性而不是方差。 RandomizedPCA 用于稀疏矩阵的接缝:***.com/questions/11809686/… 【参考方案1】:

在 scikit-learn 0.15.2 中未实现 稀疏数据上的核外 SVD 或 PCA。您可能想改用gensim。

编辑:我在第一次回复中忘记指定“关于稀疏数据”。

【讨论】:

对,这就是为什么我问是否有人知道计算非方形稀疏矩阵的特征向量的方法。上面的代码将大型稀疏矩阵写入文件,然后使用生成器,因此它不会保存在内存中。我只需要导出特征向量,这样我就可以愉快地前进了。 非方阵的特征向量没有任何意义。您可能指的是奇异向量。 scikit-learn 的 TruncatedSVD 已经这样做了(在内部使用 randomized_svdscipy.sparse.linalg.svds)。不过,这两种方法都是批处理的(即非增量的)。另一方面,gensim 可以对稀疏的词袋数据进行核外 SVD。 啊我忘记了一个步骤(我需要先得到协方差矩阵 - 这将是方形的)。我无法让 TruncatedSVD 开箱即用,这就是我遇到内存错误的地方,但还没有时间弄清楚如何让批处理在 sklearn 中工作。我不确定我需要如何将数据存储在磁盘上以批量形式将其读取到 TruncatedSVD 函数。当我有一点空闲时间时,我将不得不探索和跟进 我在上面进行了更新以显示我第一次尝试运行的内容...对此有任何想法都会有所帮助,我对 sklearn 的稀疏实现并不熟悉。

以上是关于用于文档分类的 scipy/sklearn 稀疏矩阵分解的主要内容,如果未能解决你的问题,请参考以下文章

windows下安装python的numpy,scipy,sklearn

由于 scipy,sklearn 导入失败。 OSError: [WinError 126] 找不到指定的模块

数字 OCR。用胡不变矩分类

稀疏矩阵的压缩与还原

(数据结构)部分稀疏矩阵的操作

Hu不变矩+BP神经网络,实现对图像的分类(pytorch实现)