文本分类和朴素贝叶斯,你真的理解了吗?

Posted 磐创AI

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了文本分类和朴素贝叶斯,你真的理解了吗?相关的知识,希望对你有一定的参考价值。

来源 | Stanford University

整理 | fendouai

编辑 | 安可


一、文本分类

1. 文本分类问题举例:

  • 这是一个垃圾邮件吗?

文本分类和朴素贝叶斯,你真的理解了吗?


  • 电影评价是正面的还是负面的?

文本分类和朴素贝叶斯,你真的理解了吗?


  • 这篇文章的主题是什么?

文本分类和朴素贝叶斯,你真的理解了吗?

 

2. 文本分类的应用

  • 给文章确定分类,主题,流派

  • 垃圾文本检测

  • 原创鉴定

  • 年龄,性别鉴定

  • 语言鉴定

  • 情感分析

 

文本分类和朴素贝叶斯,你真的理解了吗?

 

3. 定义文本分类

  • 输入:

                一个文本 d

                一组分类 C={c1,c2,…, cJ}

  • 输出:

              一个预测的分类 c∈C

 

4. 分类方法

1)手写规则


  • 如果规则是由专家定义的,准确率可能会很高。


  • 但是建立和维护这些规则代价都是昂贵的。

文本分类和朴素贝叶斯,你真的理解了吗?

 

2)有监督机器学习

  • 输入:

                一个文本 d

                一组分类 C={c1,c2,…, cJ}

                一个手动打标的训练集 (d1,c1),....,(dm,cm)

 

  • 输出:

                一个分类器 γ : d->c

文本分类和朴素贝叶斯,你真的理解了吗?

 

  • 分类器种类

    a. 朴素贝叶斯

       b. 逻辑回归

        c. 支持向量机

        d. K 近邻

文本分类和朴素贝叶斯,你真的理解了吗?

 

二、朴素贝叶斯

1. 基于贝叶斯规则的简单分类方法


2. 依赖于简单的文本表示——词袋模型

文本分类和朴素贝叶斯,你真的理解了吗?

 

1)词袋模型表示

文本分类和朴素贝叶斯,你真的理解了吗?

 

2)词袋模型表示:使用单词的子集

文本分类和朴素贝叶斯,你真的理解了吗?

 

词袋模型表示

文本分类和朴素贝叶斯,你真的理解了吗?

 

3. 形式化朴素贝叶斯分类器

对于一个文档 d 和一个分类 c

文本分类和朴素贝叶斯,你真的理解了吗?


文本分类和朴素贝叶斯,你真的理解了吗?


MAP 是最大化后验概率,或者说:最有可能的类别。


根据贝叶斯规则,转化为

文本分类和朴素贝叶斯,你真的理解了吗?

 

去掉共同的分母,转化为

文本分类和朴素贝叶斯,你真的理解了吗?

 

文本分类和朴素贝叶斯,你真的理解了吗?

 

文档 d 表示为 特征  x1 .. x

文本分类和朴素贝叶斯,你真的理解了吗?

   

这个类别出现的概率是多少?我们可以只计算在语料中的相对的频率,这些参数是不是只有在非常非常大的训练集的情况下才能够确认。

文本分类和朴素贝叶斯,你真的理解了吗?


4. 多项朴素贝叶斯独立假设

  • 词袋模型假设:假设位置并不重要

  • 条件假设:假设 特征概率 P(xi,cj)是独立的,在类别 c 给出的情况下。

文本分类和朴素贝叶斯,你真的理解了吗?


可以推出以下等式:

文本分类和朴素贝叶斯,你真的理解了吗?

 

多项朴素贝叶斯分类器

文本分类和朴素贝叶斯,你真的理解了吗?


三、应用多项朴素贝叶斯分类器到文本分类

positions 在测试文档中所有的词位置

文本分类和朴素贝叶斯,你真的理解了吗?


编译自:

https://web.stanford.edu/class/cs124/lec/naivebayes.pdf


你也许还想


 

 

 


欢迎扫码关注:


 点击下方 |  | 了解更多

以上是关于文本分类和朴素贝叶斯,你真的理解了吗?的主要内容,如果未能解决你的问题,请参考以下文章

朴素贝叶斯算法

21丨朴素贝叶斯分类(下):如何对文档进行分类?

了解用于文本分类的朴素贝叶斯

朴素贝叶斯分类算法的sklearn实现

机器学习基础——带你实战朴素贝叶斯模型文本分类

朴素贝叶斯-商品评论情感分析