贝叶斯分类算法

Posted 2020-06-09

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了贝叶斯分类算法相关的知识，希望对你有一定的参考价值。

分类实际上就是按照某种标准来给对象贴标签，然后再根据标签进行区分，基于概率统计的贝叶斯分类算法是最常见的分类算法，也是目前垃圾文本识别领域应用最广泛的算法。

使用贝叶斯分类算法进行二分类大致可分为这几个步骤：

收集大量的垃圾内容和非垃圾内容语料，建立训练的垃圾语料集和正常内容的语料集。
对语料文本进行分词，提取出独立的字符串，并且统计字符串在文本中出现的频次。
每个训练语料集对应一个hash table，比如垃圾语料集放在hashtable_bad中，而非垃圾语料集放在hashtable_good中，而hashtable中存储通过分词提取出的字符串以及对应的词频。
计算hashtable所有的字符串出现的概率，即P=字符串的词频/字符串的总数。
综合hashtable_good与hashtable_bad，推测当一串文本中包含某个字符串时，该文本为垃圾内容的概率,对应的数学表达式如下： P（A|k_i） = P_bad（k_i） / [ P_good（ki） +P_bad（k_i） ]，其中事件A表示文本为垃圾内容，k₁,k₂ ……k_n 代表提取的关键词，而P（A|k_i）则表示在文本中出现关键词k_i时，该文本为垃圾内容的概率，P_bad（k_i）为t_i在hashtable_bad中的值，而P_good（k_i）为k_i在hashtable_good中的值。
建立新的hashtable_probability存储字符串k_i到P（A|k_i）的映射。

行文至此，贝叶斯分类的训练学习过程就完成了，接下来就可以根据hashtable_probability来计算文本为垃圾内容的可能性了。假设用户提交的文本内容经过分词得到n个关键词k₁,k₂,k₃……k_n,hashtable_probability中对应的值为 P₁,P₂……P_n ,P(A|k₁,k₂,k₃……k_n) 表示在用户提交的文本中同时出现关键字k₁,k₂,k₃……k_n时，该段内容为垃圾文本的概率， P(A|k₁,k₂,k₃……k_n) =P₁*P₂*……P_n 。当P(A|k₁,k₂,k₃……k_n)超过预定阈值时，可以判断该内容为垃圾内容，通过调整阀值，可以控制反垃圾系统对于内容过滤的严苛程度。

以上是关于贝叶斯分类算法的主要内容，如果未能解决你的问题，请参考以下文章

Java代码利用朴素贝叶斯分类算法实现信息分类

太赞了！机器学习基础核心算法：贝叶斯分类！(附西瓜书案例及代码实现)

Java代码利用朴素贝叶斯分类算法实现信息分类

机器学习—朴素贝叶斯

第五篇：朴素贝叶斯分类算法原理分析与代码实现

机器学习——朴素贝叶斯算法