50-文本挖掘:无案牍之劳形

Posted 苏州机器学习互助小组

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了50-文本挖掘:无案牍之劳形相关的知识,希望对你有一定的参考价值。

所谓正态分布,不过是每次选择随机分布。大部分人在人生历程中,面对大大小小无数选择时,选择0或1的概率是接近的,或曰随大流,所以落在钟罩的中部。而少数人特别偏爱0或1,或曰异类,每次选择老是偏向0或1,那么最终结果就落在钟罩的尾巴上。有人随和,有人执拗,这是性格决定的,没有高下之分。随和的人容易快乐,而执拗的人未必能欣赏这种快乐。每个人的阈值是不同的。所谓谦虚,未必是性格好,可能是因为阈值高。如此看来,倒像是另一种形式的高冷了。


今天学习文本挖掘的最后一个综合案例:中文新闻分类。


方法1:文本特征向量构造方法:tdidf,分类器:MultinomialNB

50-文本挖掘:无案牍之劳形(6)

50-文本挖掘:无案牍之劳形(6)

50-文本挖掘:无案牍之劳形(6)

50-文本挖掘:无案牍之劳形(6)

50-文本挖掘:无案牍之劳形(6)

50-文本挖掘:无案牍之劳形(6)

50-文本挖掘:无案牍之劳形(6)


方法2:文本特征向量构造方法:word2vec,分类器:GradientBoostingClassifier

50-文本挖掘:无案牍之劳形(6)

50-文本挖掘:无案牍之劳形(6)


实践中可以通过排列组合:1)文本特征向量构造方式,2)分类器,来对比文本分类效果,从而选择一个最佳模型。


下周学习神经网络,敬请期待:)

以上是关于50-文本挖掘:无案牍之劳形的主要内容,如果未能解决你的问题,请参考以下文章

46-文本挖掘:无案牍之劳形

48-文本挖掘:无案牍之劳形

49-文本挖掘:无案牍之劳形

小白入门文本挖掘之基础篇

玩玩文本挖掘-wordcloud主题模型与文本分类

文本挖掘