数据挖掘 | 文本挖掘在垃圾邮件的应用
Posted 乐享数据
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了数据挖掘 | 文本挖掘在垃圾邮件的应用相关的知识,希望对你有一定的参考价值。
文本挖掘是从非结构化的文本数据中找出有价值的信息,比如电商商铺的投诉信息,通过分析投诉用来改进自己的服务。这次跟大家分享文本挖掘的一些基础概念,希望大家对文本挖掘有个简要的认识。
文本挖掘的流程
数据源
大家工作中用到的文本数据;
通过爬虫抓取的页面文本数据。
对数据源的预处理
对文本数据的预处理取决于具体的业务场景,像舆情分析、情感分析其预处理均不相同;
文本先要做最简单的去噪,比如html的一些字符需要去除,只保留文本数据;
对文本数据做编码处理,防止出现乱码的问题;
对颜文字做删除或者手动做标签使其成为有意义的特征、错别字的调整;
对文本做分词处理,分词的效果决定了最终的效果,分词有多种逻辑分词,一种是根据机器学习算法去切词,还有是根据业务场景做统计再切词,不同情境下的歧义词需要我们去分析;
去掉停用词;
如果是做情感分析,根据文本内容,自己设定积极词,消极词,然后通过匹配情感词库对句子打分;
对词做tf-idf,也就是词频统计和逆文档频率,常用的词不一定有意义,一篇文章或者一个句子里面比较重要的是其中的某个单词,经常出现的我,你,他这样的代词虽然非常多,但是带来的价值并不高;
训练模型:根据自己的业务场景去选择算法,比如分类,深度学习等算法;
主题发现:word2vec,可以找出文本内容中意义相近的单词;
数据分析:可使用seaborn或者matplot等可视化去展示文本的相关性,并且根据业务主题去加一些规则来完善自己的模型。
文本挖掘的应用
用户画像,垃圾邮件分类,对于某些明星的舆论监控等均属于文本挖掘的应用范畴,接下来我们简单的讨论一下文本挖掘在垃圾邮件的应用。
举一个垃圾邮件的内容:“大家快过来买啊,加这个微信:aaxx 为好友 。”
按照我们上面的流程,我们先处理这个句子,拆分为: 大家,快,过来,买,啊,加,这个,微信,:,aaxx,为,好友。
然后去除掉停用词,啊,快,这个,为。那么剩下来的就是 大家,过来,买,加,这个,微信,aaxx,好友。
对于大量数据的邮件,一个一个看是非常消耗时间的,这样的话就可以交给我们的模型去做自动化的分类了,可以节省很多人力成本,提高效率。
以上是关于数据挖掘 | 文本挖掘在垃圾邮件的应用的主要内容,如果未能解决你的问题,请参考以下文章