数据挖掘 | 文本挖掘在垃圾邮件的应用

Posted 2021-04-16 乐享数据

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了数据挖掘 | 文本挖掘在垃圾邮件的应用相关的知识，希望对你有一定的参考价值。

文本挖掘是从非结构化的文本数据中找出有价值的信息，比如电商商铺的投诉信息，通过分析投诉用来改进自己的服务。这次跟大家分享文本挖掘的一些基础概念，希望大家对文本挖掘有个简要的认识。

壹

文本挖掘的流程

对文本数据的预处理取决于具体的业务场景，像舆情分析、情感分析其预处理均不相同；
文本先要做最简单的去噪，比如html的一些字符需要去除，只保留文本数据；
对文本数据做编码处理，防止出现乱码的问题；
对颜文字做删除或者手动做标签使其成为有意义的特征、错别字的调整；
对文本做分词处理，分词的效果决定了最终的效果，分词有多种逻辑分词，一种是根据机器学习算法去切词，还有是根据业务场景做统计再切词，不同情境下的歧义词需要我们去分析；
去掉停用词；
如果是做情感分析，根据文本内容，自己设定积极词，消极词，然后通过匹配情感词库对句子打分；
对词做tf-idf，也就是词频统计和逆文档频率，常用的词不一定有意义，一篇文章或者一个句子里面比较重要的是其中的某个单词，经常出现的我，你，他这样的代词虽然非常多，但是带来的价值并不高；
训练模型：根据自己的业务场景去选择算法，比如分类，深度学习等算法；
主题发现：word2vec，可以找出文本内容中意义相近的单词；
数据分析：可使用seaborn或者matplot等可视化去展示文本的相关性，并且根据业务主题去加一些规则来完善自己的模型。

贰

文本挖掘的应用

用户画像，垃圾邮件分类，对于某些明星的舆论监控等均属于文本挖掘的应用范畴，接下来我们简单的讨论一下文本挖掘在垃圾邮件的应用。

举一个垃圾邮件的内容：“大家快过来买啊，加这个微信：aaxx 为好友。”

按照我们上面的流程，我们先处理这个句子，拆分为: 大家，快，过来，买，啊，加，这个，微信，：，aaxx，为，好友。

然后去除掉停用词，啊，快，这个，为。那么剩下来的就是大家，过来，买，加，这个，微信，aaxx，好友。

对于大量数据的邮件，一个一个看是非常消耗时间的，这样的话就可以交给我们的模型去做自动化的分类了，可以节省很多人力成本，提高效率。

以上是关于数据挖掘 | 文本挖掘在垃圾邮件的应用的主要内容，如果未能解决你的问题，请参考以下文章