文本分类和朴素贝叶斯，你真的理解了吗？

Posted 2021-04-25 磐创AI

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了文本分类和朴素贝叶斯，你真的理解了吗？相关的知识，希望对你有一定的参考价值。

来源 | Stanford University

整理 | fendouai

编辑 | 安可

一、文本分类

1. 文本分类问题举例：

这是一个垃圾邮件吗？

文本分类和朴素贝叶斯，你真的理解了吗？

电影评价是正面的还是负面的？

文本分类和朴素贝叶斯，你真的理解了吗？

这篇文章的主题是什么？

文本分类和朴素贝叶斯，你真的理解了吗？

2. 文本分类的应用

给文章确定分类，主题，流派
垃圾文本检测
原创鉴定
年龄，性别鉴定
语言鉴定
情感分析

文本分类和朴素贝叶斯，你真的理解了吗？

3. 定义文本分类

输入：

一个文本 d

一组分类 C={c₁,c₂,…, c_J}

输出：

一个预测的分类 c∈C

4. 分类方法

1）手写规则

如果规则是由专家定义的，准确率可能会很高。

但是建立和维护这些规则代价都是昂贵的。

文本分类和朴素贝叶斯，你真的理解了吗？

2）有监督机器学习

输入：

一个文本 d

一组分类 C={c₁,c₂,…, c_J}

一个手动打标的训练集 (d1,c1),....,(dm,cm)

输出：

一个分类器 γ : d->c

文本分类和朴素贝叶斯，你真的理解了吗？

分类器种类
a. 朴素贝叶斯

b. 逻辑回归

c. 支持向量机

d. K 近邻

文本分类和朴素贝叶斯，你真的理解了吗？

二、朴素贝叶斯

1. 基于贝叶斯规则的简单分类方法

2. 依赖于简单的文本表示——词袋模型

文本分类和朴素贝叶斯，你真的理解了吗？

1）词袋模型表示

文本分类和朴素贝叶斯，你真的理解了吗？

2）词袋模型表示：使用单词的子集

文本分类和朴素贝叶斯，你真的理解了吗？

词袋模型表示

文本分类和朴素贝叶斯，你真的理解了吗？

3. 形式化朴素贝叶斯分类器

对于一个文档 d 和一个分类 c

文本分类和朴素贝叶斯，你真的理解了吗？

MAP 是最大化后验概率，或者说：最有可能的类别。

根据贝叶斯规则，转化为

文本分类和朴素贝叶斯，你真的理解了吗？

去掉共同的分母，转化为

文本分类和朴素贝叶斯，你真的理解了吗？

文档 d 表示为特征 x₁ .. x_n

文本分类和朴素贝叶斯，你真的理解了吗？

这个类别出现的概率是多少？我们可以只计算在语料中的相对的频率，这些参数是不是只有在非常非常大的训练集的情况下才能够确认。

文本分类和朴素贝叶斯，你真的理解了吗？

4. 多项朴素贝叶斯独立假设

词袋模型假设：假设位置并不重要
条件假设：假设特征概率 P(x_i,c_j)是独立的，在类别 c 给出的情况下。

文本分类和朴素贝叶斯，你真的理解了吗？

可以推出以下等式：

文本分类和朴素贝叶斯，你真的理解了吗？

多项朴素贝叶斯分类器

文本分类和朴素贝叶斯，你真的理解了吗？

三、应用多项朴素贝叶斯分类器到文本分类

positions 在测试文档中所有的词位置

文本分类和朴素贝叶斯，你真的理解了吗？

编译自：

https://web.stanford.edu/class/cs124/lec/naivebayes.pdf

你也许还想看：

欢迎扫码关注：

点击下方 | 阅读原文 | 了解更多

以上是关于文本分类和朴素贝叶斯，你真的理解了吗？的主要内容，如果未能解决你的问题，请参考以下文章

朴素贝叶斯算法

21丨朴素贝叶斯分类（下）：如何对文档进行分类？

了解用于文本分类的朴素贝叶斯

朴素贝叶斯分类算法的sklearn实现

机器学习基础——带你实战朴素贝叶斯模型文本分类

朴素贝叶斯-商品评论情感分析