快速信息增益计算
Posted
技术标签:
【中文标题】快速信息增益计算【英文标题】:Fast Information Gain computation 【发布时间】:2014-10-17 05:11:24 【问题描述】:我需要为 文本分类 的 >10k 文档中 >100k 特征计算 Information Gain 分数。下面的代码运行良好,但整个数据集非常慢 - 在笔记本电脑上需要一个多小时。数据集是 20newsgroup,我使用的是 scikit-learn,chi2 函数在 scikit 中提供的速度非常快。
知道如何更快地计算此类数据集的信息增益吗?
def information_gain(x, y):
def _entropy(values):
counts = np.bincount(values)
probs = counts[np.nonzero(counts)] / float(len(values))
return - np.sum(probs * np.log(probs))
def _information_gain(feature, y):
feature_set_indices = np.nonzero(feature)[1]
feature_not_set_indices = [i for i in feature_range if i not in feature_set_indices]
entropy_x_set = _entropy(y[feature_set_indices])
entropy_x_not_set = _entropy(y[feature_not_set_indices])
return entropy_before - (((len(feature_set_indices) / float(feature_size)) * entropy_x_set)
+ ((len(feature_not_set_indices) / float(feature_size)) * entropy_x_not_set))
feature_size = x.shape[0]
feature_range = range(0, feature_size)
entropy_before = _entropy(y)
information_gain_scores = []
for feature in x.T:
information_gain_scores.append(_information_gain(feature, y))
return information_gain_scores, []
编辑:
我合并了内部函数并运行cProfiler
如下(在限制为~15k 特征和~1k 文档的数据集上):
cProfile.runctx(
"""for feature in x.T:
feature_set_indices = np.nonzero(feature)[1]
feature_not_set_indices = [i for i in feature_range if i not in feature_set_indices]
values = y[feature_set_indices]
counts = np.bincount(values)
probs = counts[np.nonzero(counts)] / float(len(values))
entropy_x_set = - np.sum(probs * np.log(probs))
values = y[feature_not_set_indices]
counts = np.bincount(values)
probs = counts[np.nonzero(counts)] / float(len(values))
entropy_x_not_set = - np.sum(probs * np.log(probs))
result = entropy_before - (((len(feature_set_indices) / float(feature_size)) * entropy_x_set)
+ ((len(feature_not_set_indices) / float(feature_size)) * entropy_x_not_set))
information_gain_scores.append(result)""",
globals(), locals())
tottime
排名前 20:
ncalls tottime percall cumtime percall filename:lineno(function)
1 60.27 60.27 65.48 65.48 <string>:1(<module>)
16171 1.362 0 2.801 0 csr.py:313(_get_row_slice)
16171 0.523 0 0.892 0 coo.py:201(_check)
16173 0.394 0 0.89 0 compressed.py:101(check_format)
210235 0.297 0 0.297 0 numpy.core.multiarray.array
16173 0.287 0 0.331 0 compressed.py:631(prune)
16171 0.197 0 1.529 0 compressed.py:534(tocoo)
16173 0.165 0 1.263 0 compressed.py:20(__init__)
16171 0.139 0 1.669 0 base.py:415(nonzero)
16171 0.124 0 1.201 0 coo.py:111(__init__)
32342 0.123 0 0.123 0 method 'max' of 'numpy.ndarray' objects
48513 0.117 0 0.218 0 sputils.py:93(isintlike)
32342 0.114 0 0.114 0 method 'sum' of 'numpy.ndarray' objects
16171 0.106 0 3.081 0 csr.py:186(__getitem__)
32342 0.105 0 0.105 0 numpy.lib._compiled_base.bincount
32344 0.09 0 0.094 0 base.py:59(set_shape)
210227 0.088 0 0.088 0 isinstance
48513 0.081 0 1.777 0 fromnumeric.py:1129(nonzero)
32342 0.078 0 0.078 0 method 'min' of 'numpy.ndarray' objects
97032 0.066 0 0.153 0 numeric.py:167(asarray)
看起来大部分时间都花在_get_row_slice
上。我不完全确定第一行,看起来它涵盖了我提供给cProfile.runctx
的整个块,虽然我不知道为什么第一行totime=60.27
和第二行tottime=1.362
之间有这么大的差距。差价花在了哪里?可以在cProfile
查看吗?
基本上,看起来问题在于稀疏矩阵运算(切片、获取元素)——解决方案可能是使用矩阵代数计算 信息增益(如 chi2 is implemented in scikit强>)。但是我不知道如何用矩阵运算来表达这个计算......有人有想法吗??
【问题讨论】:
您是否尝试过使用 profiler 来查看瓶颈在哪里?您是否尝试过对数据进行并行处理? 谢谢你,我编辑了帖子 我的建议,与问题无关:在计算信息增益之前减少特征集,通过更容易计算的更简单的方法。例如,许多 ngrams(我想是你的特征)只会在语料库中出现一两次,应该事先排除,大大减少你的特征集。 【参考方案1】:不知道一年过去了是否还有帮助。但现在我碰巧面临着同样的文本分类任务。我已经使用为稀疏矩阵提供的nonzero() 函数重写了您的代码。然后我只是扫描 nz,计算相应的 y_value 并计算熵。
以下代码只需要几秒钟即可运行 news20 数据集(使用 libsvm 稀疏矩阵格式加载)。
def information_gain(X, y):
def _calIg():
entropy_x_set = 0
entropy_x_not_set = 0
for c in classCnt:
probs = classCnt[c] / float(featureTot)
entropy_x_set = entropy_x_set - probs * np.log(probs)
probs = (classTotCnt[c] - classCnt[c]) / float(tot - featureTot)
entropy_x_not_set = entropy_x_not_set - probs * np.log(probs)
for c in classTotCnt:
if c not in classCnt:
probs = classTotCnt[c] / float(tot - featureTot)
entropy_x_not_set = entropy_x_not_set - probs * np.log(probs)
return entropy_before - ((featureTot / float(tot)) * entropy_x_set
+ ((tot - featureTot) / float(tot)) * entropy_x_not_set)
tot = X.shape[0]
classTotCnt =
entropy_before = 0
for i in y:
if i not in classTotCnt:
classTotCnt[i] = 1
else:
classTotCnt[i] = classTotCnt[i] + 1
for c in classTotCnt:
probs = classTotCnt[c] / float(tot)
entropy_before = entropy_before - probs * np.log(probs)
nz = X.T.nonzero()
pre = 0
classCnt =
featureTot = 0
information_gain = []
for i in range(0, len(nz[0])):
if (i != 0 and nz[0][i] != pre):
for notappear in range(pre+1, nz[0][i]):
information_gain.append(0)
ig = _calIg()
information_gain.append(ig)
pre = nz[0][i]
classCnt =
featureTot = 0
featureTot = featureTot + 1
yclass = y[nz[1][i]]
if yclass not in classCnt:
classCnt[yclass] = 1
else:
classCnt[yclass] = classCnt[yclass] + 1
ig = _calIg()
information_gain.append(ig)
return np.asarray(information_gain)
【讨论】:
先生,请帮我理解这里的 X 和 y。谢谢。 这些 $X$ 是一个包含每个实例特征的矩阵,其中每一行代表一个实例,列代表特征。 $y$ 代表目标类。有关该接口的更多信息,请参阅例如 scikit-learn.org/stable/modules/generated/…。 @Kevin- 我尝试了您的代码,但我收到以下错误 TypeError:只有具有一个元素的整数数组可以转换为索引。我将 tfidf-matrix(权重)作为 X 变量传递,将训练标签作为 Y 变量传递。我是否传递了错误的 X 变量? @junjiek 感谢您与我们分享您的代码。你介意解释一下,虽然应该对单词应用信息增益来计算每个单词相对于每个类别的相应信息增益,你是如何在 20 个新闻组中覆盖这个的。因为您的矩阵基于(文档,功能)。我们是否需要以特定方式加载 20news 组以与您的代码兼容?【参考方案2】:这是一个使用矩阵运算的版本。特征的 IG 是其特定类别分数的平均值。
import numpy as np
from scipy.sparse import issparse
from sklearn.preprocessing import LabelBinarizer
from sklearn.utils import check_array
from sklearn.utils.extmath import safe_sparse_dot
def ig(X, y):
def get_t1(fc, c, f):
t = np.log2(fc/(c * f))
t[~np.isfinite(t)] = 0
return np.multiply(fc, t)
def get_t2(fc, c, f):
t = np.log2((1-f-c+fc)/((1-c)*(1-f)))
t[~np.isfinite(t)] = 0
return np.multiply((1-f-c+fc), t)
def get_t3(c, f, class_count, observed, total):
nfc = (class_count - observed)/total
t = np.log2(nfc/(c*(1-f)))
t[~np.isfinite(t)] = 0
return np.multiply(nfc, t)
def get_t4(c, f, feature_count, observed, total):
fnc = (feature_count - observed)/total
t = np.log2(fnc/((1-c)*f))
t[~np.isfinite(t)] = 0
return np.multiply(fnc, t)
X = check_array(X, accept_sparse='csr')
if np.any((X.data if issparse(X) else X) < 0):
raise ValueError("Input X must be non-negative.")
Y = LabelBinarizer().fit_transform(y)
if Y.shape[1] == 1:
Y = np.append(1 - Y, Y, axis=1)
# counts
observed = safe_sparse_dot(Y.T, X) # n_classes * n_features
total = observed.sum(axis=0).reshape(1, -1).sum()
feature_count = X.sum(axis=0).reshape(1, -1)
class_count = (X.sum(axis=1).reshape(1, -1) * Y).T
# probs
f = feature_count / feature_count.sum()
c = class_count / float(class_count.sum())
fc = observed / total
# the feature score is averaged over classes
scores = (get_t1(fc, c, f) +
get_t2(fc, c, f) +
get_t3(c, f, class_count, observed, total) +
get_t4(c, f, feature_count, observed, total)).mean(axis=0)
scores = np.asarray(scores).reshape(-1)
return scores, []
在具有 1000 个实例和 1000 个独特特征的数据集上,此实现比没有矩阵运算的实现快 100 以上。
【讨论】:
【参考方案3】:正是这段代码feature_not_set_indices = [i for i in feature_range if i not in feature_set_indices]
占用了90%的时间,尝试改成set操作
【讨论】:
以上是关于快速信息增益计算的主要内容,如果未能解决你的问题,请参考以下文章