文本分类:使用 MinMax-Scaler 的词袋
Posted
技术标签:
【中文标题】文本分类:使用 MinMax-Scaler 的词袋【英文标题】:Text-Classification: Bag of words with MinMax-Scaler 【发布时间】:2016-08-28 12:59:13 【问题描述】:我尝试根据词袋表示对文档进行分类(特征:1000)。对于分类,我使用的是 SVM,似乎有时 SVM 不会终止并无休止地运行。 (运行 sci-kit: SVC(C=1.0,kernel='linear', cache_size=5000, verbose=True)) 现在我正在寻找解决方案,我正在考虑应用 MinMax-Scaler 来获得计算高效的文档表示。但是我是否用特征规范化搞砸了我的单词表示包?
提前致谢!
【问题讨论】:
【参考方案1】:它确实会终止,只是非常缓慢。缩放你的词袋不会“搞砸”任何东西——实际上这是一种非常常见的技术,你很少会使用一个使用词袋的模型——你要么使用一组词(根据定义进行缩放),要么使用 som 缩放规范化的袋子单词,例如 tf-idf (通常比通过 min max “挤压”更好)。一般来说,minmax 是一种非常粗糙的技术,对异常值非常敏感(因此,如果您的文档包含 1000 次出现的单词“foo”,那么您的“foo”维度将被压缩 1000,即使它只是一个异常值)。因此 - 宁愿选择 tfidf 或至少标准缩放器。
【讨论】:
以上是关于文本分类:使用 MinMax-Scaler 的词袋的主要内容,如果未能解决你的问题,请参考以下文章