Python微调文本顺序对抗朴素贝叶斯算法垃圾邮件分类机制
Posted Python小屋
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Python微调文本顺序对抗朴素贝叶斯算法垃圾邮件分类机制相关的知识,希望对你有一定的参考价值。
封面图片:
《Python可以这样学》,ISBN:9787302456469,董付国,清华大学出版社
关于朴素贝叶斯算法中文垃圾邮件分类,可以参考:
分词是很多文本分类技术中很重要的一个环节,如果这个环节被破坏,会严重影响分类的准确性。
为了对抗这种垃圾邮件分类机制,有些垃圾邮件发送程序在文本中插入【】#¥*@&$等干扰字符来影响分词,从而影响整个分类机制的正确性。这样处理过的垃圾邮件实际上更容易识别和检测。因为在正常邮件文本中是不应该出现太多干扰字符的,如果出现了,那么直接判定为垃圾邮件在很大概率上也是正确的。检测方法思路可以参考:
由于人类在阅读文本时,一般是从粗到细和粗细结合的过程,先是一目十行大概了解,如果有感兴趣或需要的内容再缩小窗口逐行阅读,甚至逐词逐字反复阅读,并且在阅读过程中还会根据知识密集程度动态调整阅读窗口。
在这样的阅读方式下,部分字词的顺序交换以后并不容易发现,即使发现一般也不会影响内容的理解,大脑会根据记忆和知识的积累自动识别和纠正部分错误。
根据这一特点,如果对邮件文本中部分字词的顺序进行调整,会直接影响分词结果和朴素贝叶斯算法或类似算法的准确率,欺骗垃圾邮件过滤机制,使得垃圾邮件出现在正常收件箱中的概率大幅度增加。
演示代码:
关注本公众号“Python小屋”,通过菜单“最新资源”==>“历史文章”可以快速查看分专题的850篇技术文章列表(可根据关键字在页面上搜索感兴趣的文章),通过“最新资源”==>“微课专区”可以免费观看350节Python微课,通过“最新资源”==>“培训动态”可以查看近期Python培训安排,通过“最新资源”==>“教学资源”可以查看Python教学资源。
--------董付国老师Python系列图书--------
友情提示:
不建议购买太多,最好先通过京东、当当、天猫查阅图书了解目录和侧重点,然后再选择购买适合自己的书。
1)《Python程序设计(第2版)》清华大学出版社,2016年8月
2)《Python可以这样学》清华大学出版社,2017年2月
3)《Python程序设计基础(第2版)》清华大学出版社,2018年1月
4)《中学生可以这样学Python》清华大学出版社,配套微课:
5)《Python程序设计开发宝典》清华大学出版社,2018年10月
6)《玩转Python轻松过二级》清华大学出版社,2018年5月
7)《Python程序设计基础与应用》机械工业出版社,2018年9月
8)《Python程序设计实验指导书》清华大学出版社,2019年4月
9)《Python编程基础与案例集锦(中学版)》电子工业出版社,2019年4月
10)《大数据的Python基础》机械工业出版社,预计2019年5月出版
11)译作《Python程序设计》,机械工业出版社(华章),2018年11月出版
12)繁体版《Python也可以这样学》,台湾博硕文化股份有限公司,2017年10月出版,本书为《Python可以这样学》在台湾发行的繁体版,两本书内容一样,不建议重复购买。
(13)《Python程序设计实例教程》,机械工业出版社
以上是关于Python微调文本顺序对抗朴素贝叶斯算法垃圾邮件分类机制的主要内容,如果未能解决你的问题,请参考以下文章
R语言:朴素贝叶斯算法实现对中文垃圾邮件的分类
机器学习贝叶斯算法详解 + 公式推导 + 垃圾邮件过滤实战 + Python代码实现
使用朴素贝叶斯算法简单实现垃圾邮件过滤之算法介绍实现过程
译文:朴素贝叶斯算法简介(Python和R中的代码)
使用朴素贝叶斯分类器过滤垃圾邮件
实战:朴素贝叶斯对文档进行分类