文本分类:使用 MinMax-Scaler 的词袋

Posted

技术标签:

【中文标题】文本分类:使用 MinMax-Scaler 的词袋【英文标题】:Text-Classification: Bag of words with MinMax-Scaler 【发布时间】:2016-08-28 12:59:13 【问题描述】:

我尝试根据词袋表示对文档进行分类(特征:1000)。对于分类,我使用的是 SVM,似乎有时 SVM 不会终止并无休止地运行。 (运行 sci-kit: SVC(C=1.0,kernel='linear', cache_size=5000, verbose=True)) 现在我正在寻找解决方案,我正在考虑应用 MinMax-Scaler 来获得计算高效的文档表示。但是我是否用特征规范化搞砸了我的单词表示包?

提前致谢!

【问题讨论】:

【参考方案1】:

它确实会终止,只是非常缓慢。缩放你的词袋不会“搞砸”任何东西——实际上这是一种非常常见的技术,你很少会使用一个使用词袋的模型——你要么使用一组词(根据定义进行缩放),要么使用 som 缩放规范化的袋子单词,例如 tf-idf (通常比通过 min max “挤压”更好)。一般来说,minmax 是一种非常粗糙的技术,对异常值非常敏感(因此,如果您的文档包含 1000 次出现的单词“foo”,那么您的“foo”维度将被压缩 1000,即使它只是一个异常值)。因此 - 宁愿选择 tfidf 或至少标准缩放器。

【讨论】:

以上是关于文本分类:使用 MinMax-Scaler 的词袋的主要内容,如果未能解决你的问题,请参考以下文章

用于分类的词袋 - 特征与像素

基于朴素贝叶斯分类器的情感分析

使用 sklearn_pandas 查找 k-means 聚类最重要的词

如何组合不同的特征并将其提供给文本分类算法

如何使用在不同项目中构建的分类模型对新文本进行分类?

火炉炼AI机器学习051-视觉词袋模型+极端随机森林建立图像分类器