数据挖掘 | 文本挖掘在垃圾邮件的应用

Posted 乐享数据

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了数据挖掘 | 文本挖掘在垃圾邮件的应用相关的知识,希望对你有一定的参考价值。

    文本挖掘是从非结构化的文本数据中找出有价值的信息,比如电商商铺的投诉信息,通过分析投诉用来改进自己的服务。这次跟大家分享文本挖掘的一些基础概念,希望大家对文本挖掘有个简要的认识。

        

文本挖掘的流程

  • 数据源

    • 大家工作中用到的文本数据;

    • 通过爬虫抓取的页面文本数据。

  • 对数据源的预处理

    • 对文本数据的预处理取决于具体的业务场景,像舆情分析、情感分析其预处理均不相同;

    • 文本先要做最简单的去噪,比如html的一些字符需要去除,只保留文本数据;

    • 对文本数据做编码处理,防止出现乱码的问题;

    • 对颜文字做删除或者手动做标签使其成为有意义的特征、错别字的调整;

    • 对文本做分词处理,分词的效果决定了最终的效果,分词有多种逻辑分词,一种是根据机器学习算法去切词,还有是根据业务场景做统计再切词,不同情境下的歧义词需要我们去分析;

    • 去掉停用词;

    • 如果是做情感分析,根据文本内容,自己设定积极词,消极词,然后通过匹配情感词库对句子打分;

    • 对词做tf-idf,也就是词频统计和逆文档频率,常用的词不一定有意义,一篇文章或者一个句子里面比较重要的是其中的某个单词,经常出现的我,你,他这样的代词虽然非常多,但是带来的价值并不高;

    • 训练模型:根据自己的业务场景去选择算法,比如分类,深度学习等算法

    • 主题发现:word2vec,可以找出文本内容中意义相近的单词;

    • 数据分析:可使用seaborn或者matplot等可视化去展示文本的相关性,并且根据业务主题去加一些规则来完善自己的模型。



文本挖掘的应用

        

       用户画像,垃圾邮件分类,对于某些明星的舆论监控等均属于文本挖掘的应用范畴,接下来我们简单的讨论一下文本挖掘在垃圾邮件的应用。

        举一个垃圾邮件的内容:“大家快过来买啊,加这个微信:aaxx 为好友 。”

        按照我们上面的流程,我们先处理这个句子,拆分为: 大家,快,过来,买,啊,加,这个,微信,:,aaxx,为,好友。

        然后去除掉停用词,啊,快,这个,为。那么剩下来的就是 大家,过来,买,加,这个,微信,aaxx,好友。

       对于大量数据的邮件,一个一个看是非常消耗时间的,这样的话就可以交给我们的模型去做自动化的分类了,可以节省很多人力成本,提高效率。



以上是关于数据挖掘 | 文本挖掘在垃圾邮件的应用的主要内容,如果未能解决你的问题,请参考以下文章

文本挖掘:中文分词

iDST-文本挖掘算法专家-情感分析&文本反垃圾-杭州

python数据分析与挖掘学习笔记-垃圾邮件自动识别

数据挖掘实例:朴素贝叶斯分类器进行垃圾邮件过滤

朴素贝叶斯应用:垃圾邮件分类

用文本挖掘和机器学习洞悉数据