《机器学习实战》个人学习分享:朴素贝叶斯

Posted 摩羯青年

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了《机器学习实战》个人学习分享:朴素贝叶斯相关的知识,希望对你有一定的参考价值。


点击上方 蓝字 关注


这次的学习依旧是简单的分类算法,朴素贝叶斯,这个算法是比较基础的,和上次的决策树类似,这里也主要是概率论的知识点,主要就是条件概率的理解与运用。
该算法的优点在于简单易懂、学习效率高、在某些领域的分类问题中能够与决策树、神经网络相媲美。但由于该算法以自变量之间的独立(条件特征独立)性和连续变量的正态性假设为前提,就会导致算法精度在某种程度上受影响。这也是朴素一词的来源。
同样这里借鉴了Jack Cui的博客和黄海安的视频讲解,内容得到了二人的授权,二人的相关链接如下:

Python3《机器学习实战》学习笔记(四):朴素贝叶斯基础篇之言论过滤器:https://blog.csdn.net/c406495762/article/details/77341116

Python3《机器学习实战》学习笔记(五):朴素贝叶斯实战篇之新浪新闻分类:https://blog.csdn.net/c406495762/article/details/77500679

【机器学习实战】【python3版本】【代码讲解】:https://www.bilibili.com/video/BV16t411Q7TM

《机器学习实战》个人学习分享(三):朴素贝叶斯


相关的运行平台和环境

运行平台:  win10

python:  3.7.6

Anaconda:  4.8.3

IDE:  pycharm community





01

前期知识点


有关贝叶斯的理论和概率问题在本科的课程中已经学过,但是如何去介绍这个理论却不是很容易,在这里借鉴Jack Cui 的博客里的内容,用图形结合的方式来介绍。

贝叶斯概率以18世纪的一位神学家托马斯·贝叶斯(Thomas Bayes)的名字命名。贝叶斯概率引入先验知识和逻辑推理来处理不确定命题。另一种概率解释称为频数概率(frequency probability),它只从数据本身获得结论,并不考虑逻辑推理及先验知识。由于频数概率在实际的问题中不容易获得或者根本无法得到,所以才用到贝叶斯概率。

贝叶斯的核心思想就是利用高概率对应的类别进行分类,由于是概率,那么就是计算问题,这里关键的问题是条件概率和全概率。

条件概率

条件概率就是指在事件B发生的情况下,事件A发生的概率,用P(A|B)来表示,由下图可以形象的表示。

《机器学习实战》个人学习分享(三):朴素贝叶斯

可以看出来
《机器学习实战》个人学习分享(三):朴素贝叶斯
因此,

《机器学习实战》个人学习分享(三):朴素贝叶斯

同理可得,

《机器学习实战》个人学习分享(三):朴素贝叶斯

所以,

《机器学习实战》个人学习分享(三):朴素贝叶斯

《机器学习实战》个人学习分享(三):朴素贝叶斯

所以B发生条件下A发生的概率可以由上式这样表示。下面介绍全概率公式


全概率公式


观察下面的图,S是全集。

《机器学习实战》个人学习分享(三):朴素贝叶斯


假定样本空间S,是两个事件A与A'的和。A和B有交集。


《机器学习实战》个人学习分享(三):朴素贝叶斯


那么B的概率可以两部分来表示,即

《机器学习实战》个人学习分享(三):朴素贝叶斯

在上面的推导当中,我们已知

《机器学习实战》个人学习分享(三):朴素贝叶斯

所以,

《机器学习实战》个人学习分享(三):朴素贝叶斯

将这个公式代入上一节的条件概率公式,就得到了条件概率的另一种写法:

《机器学习实战》个人学习分享(三):朴素贝叶斯

以上就是有关贝叶斯的基础知识点,在这里需要注意的是“朴素”一词的含义有两个方面:

1 特征之间相互独立,这个独立指的是统计学意义上的独立,即一个特征的出现与其他特征没有任何关系,互不影响。

2 每个特征同等重要,即是没有好坏之分,每个特征拥有同样的地位。

02

情感文本分类


下面直接来干货。使用朴素贝叶斯进行文本的分类。

第一个是文本情感分析实例,根据数据集,数据集包括带侮辱类的文本和不带侮辱类的文本,然后输入一个文本,判断是否是带有侮辱性的文本。代码如下:

def test(): postingList, classVec = loadDataSet() myVocabList = createVocabList(postingList) trainMat = [] for postinDoc in postingList: trainMat.append(setOfWords2Vec(myVocabList, postinDoc)) # 将一个一个样本,利用词汇表转换为词向量 p0V, p1V, pAb = trainNB0(trainMat, classVec) # 训练-计算条件概率 0-非侮辱类条件概率集 1-侮辱类条件概率集 testEntry = ['love', 'my', 'dalmation'] thisDoc = np.array(setOfWords2Vec(myVocabList, testEntry)) # 测试样本向量化 if classifyNB(thisDoc, p0V, p1V, pAb): print(testEntry, '属于侮辱类') # 执行分类并打印分类结果 else: print(testEntry, '属于非侮辱类') # 执行分类并打印分类结果 testEntry = ['stupid', 'garbage'] # 测试样本2
thisDoc = np.array(setOfWords2Vec(myVocabList, testEntry)) # 测试样本向量化 if classifyNB(thisDoc, p0V, p1V, pAb): print(testEntry, '属于侮辱类') # 执行分类并打印分类结果 else:        print(testEntry, '属于非侮辱类')  # 执行分类并打印分类结果


第一行是创建数据集,有六个样本,三个侮辱类的和三个非侮辱类的,标签单独处理。


def loadDataSet(): postingList = [['my', 'dog', 'has', 'flea', 'problems', 'help', 'please'], # 切分的词条 ['maybe', 'not', 'take', 'him', 'to', 'dog', 'park', 'stupid'], ['my', 'dalmation', 'is', 'so', 'cute', 'I', 'love', 'him'], ['stop', 'posting', 'stupid', 'worthless', 'garbage'], ['mr', 'licks', 'ate', 'my', 'steak', 'how', 'to', 'stop', 'him'], ['quit', 'buying', 'worthless', 'dog', 'food', 'stupid']] classVec = [0, 1, 0, 1, 0, 1] # 类别标签向量,1代表侮辱性词汇,0代表不是 return postingList, classVec # 返回实验样本切分的词条和类别标签向量


然后是创建词汇表,这是将数据集向量化的第一步


def createVocabList(dataSet): vocabSet = set([]) # 创建一个空的不重复列表 for document in dataSet: vocabSet = vocabSet | set(document) # 取并集    return list(vocabSet)


方法是逐次遍历然后取并集,由于集合具有元素不重复的特点,所以这个就可以将全部数据集的元素汇成一个集合。集合如下:


《机器学习实战》个人学习分享(三):朴素贝叶斯


然后是向量化的第二步,其中用到setOfWords2Vec函数,这个函数是将数据集的元素遍历,与集合的比较,出现的元素置1,没出现的置0,然后就把文本向量化,方便后续处理。


def setOfWords2Vec(vocabList, inputSet): returnVec = [0] * len(vocabList) # 创建一个其中所含元素都为0的向量 for word in inputSet: # 遍历每个词条 if word in vocabList: # 如果词条存在于词汇表中,则置1 returnVec[vocabList.index(word)] = 1 else: print("the word: %s is not in my Vocabulary!" % word) return returnVec # 返回文档向量


处理结果如下:


《机器学习实战》个人学习分享(三):朴素贝叶斯


向量化处理后,就可以计算概率了,代码比较简单,贴代码如下:


def trainNB0(trainMatrix, trainCategory): numTrainDocs = len(trainMatrix) # 计算训练的文档数目 numWords = len(trainMatrix[0]) # 计算每篇文档的词条数 pAbusive = sum(trainCategory) / float(numTrainDocs) # 文档属于侮辱类的概率 p0Num = np.ones(numWords) p1Num = np.ones(numWords) # 创建numpy.ones数组,词条出现数初始化为1,拉普拉斯平滑 p0Denom = 2.0 p1Denom = 2.0 # 分母初始化为2,拉普拉斯平滑 for i in range(numTrainDocs): if trainCategory[i] == 1: # 统计属于侮辱类的条件概率所需的数据,即P(w0|1),P(w1|1),P(w2|1)··· p1Num += trainMatrix[i] p1Denom += sum(trainMatrix[i]) else: # 统计属于非侮辱类的条件概率所需的数据,即P(w0|0),P(w1|0),P(w2|0)··· p0Num += trainMatrix[i] p0Denom += sum(trainMatrix[i]) p1Vect = np.log(p1Num / p1Denom) # 取对数,防止下溢出 p0Vect = np.log(p0Num / p0Denom)    return p0Vect, p1Vect, pAbusive  # 返回属于侮辱类的条件概率数组,属于非侮辱类的条件概率数组,文档属于侮辱类的概率


在这里的两个优化,一个是拉普拉斯平滑处理,是为了避免出现概率为0的情况,另一个是条件概率对数化,防止小数相乘下溢出。下面开始跑代码

计算条件概率,就是选择相同标签的放在一起,然后算频数,再除以总数,全部数据向量化处理比较方便,结果如下:


《机器学习实战》个人学习分享(三):朴素贝叶斯


计算好条件概率后,就可以进行测试,将测试文本同样向量化处理然后与计算好的条件概率相乘,取出相应的条件概率,比较概率输出结果:


def classifyNB(vec2Classify, p0Vec, p1Vec, pClass1): p1 = sum(vec2Classify * p1Vec) + np.log(pClass1) # 对应元素相乘。logA * B = logA + logB,所以这里加上log(pClass1) p0 = sum(vec2Classify * p0Vec) + np.log(1.0 - pClass1) if p1 > p0: return 1 else:        return 0


取两个测试文本,结果:


《机器学习实战》个人学习分享(三):朴素贝叶斯


至此,文本分析的就结束了。


03

电子邮件过滤



第二个是电子邮件过滤,核心基本一样,直接跑代码分析:


def spamTest(): docList = [] classList = [] fullText = [] for i in range(1, 26): # 遍历25个txt文件 wordList = textParse(open('email/spam/%d.txt' % i, 'r').read()) # 读取每个垃圾邮件,并字符串转换成字符串列表 docList.append(wordList) fullText.append(wordList) classList.append(1) # 标记垃圾邮件,1表示垃圾文件 wordList = textParse(open('email/ham/%d.txt' % i, 'r').read()) # 读取每个非垃圾邮件,并字符串转换成字符串列表 docList.append(wordList) fullText.append(wordList) classList.append(0) # 标记非垃圾邮件,1表示垃圾文件 vocabList = createVocabList(docList) # 创建词汇表,不重复 trainingSet = list(range(50)) testSet = [] # 创建存储训练集的索引值的列表和测试集的索引值的列表 for i in range(10): # 从50个邮件中,随机挑选出40个作为训练集,10个做测试集 randIndex = int(random.uniform(0, len(trainingSet))) # 随机选取索索引值 testSet.append(trainingSet[randIndex]) # 添加测试集的索引值 del (trainingSet[randIndex]) # 在训练集列表中删除添加到测试集的索引值 trainMat = [] trainClasses = [] # 创建训练集矩阵和训练集类别标签系向量 for docIndex in trainingSet: # 遍历训练集 trainMat.append(setOfWords2Vec(vocabList, docList[docIndex])) # 将生成的词集模型添加到训练矩阵中 trainClasses.append(classList[docIndex]) # 将类别添加到训练集类别标签系向量中 p0V, p1V, pSpam = trainNB0(np.array(trainMat), np.array(trainClasses)) # 训练朴素贝叶斯模型 errorCount = 0 # 错误分类计数 for docIndex in testSet: # 遍历测试集 wordVector = setOfWords2Vec(vocabList, docList[docIndex]) # 测试集的词集模型 if classifyNB(np.array(wordVector), p0V, p1V, pSpam) != classList[docIndex]: # 如果分类错误 errorCount += 1 # 错误计数加1 print("分类错误的测试集:", docList[docIndex]) print('错误率:%.2f%%' % (float(errorCount) / len(testSet) * 100))


第一步还是处理数据,遍历50封邮件,其中包括25封垃圾邮件,25封非垃圾邮件,将垃圾邮件和非垃圾邮件进行分类存储,结果如下:


《机器学习实战》个人学习分享(三):朴素贝叶斯


然后是将50封邮件随机分为数据集和测试集,计算错误率,由于基本相同,直接跑结果:


《机器学习实战》个人学习分享(三):朴素贝叶斯


结果还可以。

04

新浪新闻分类


第二个主要实例是用sklearn做有关新浪新闻分类的,先需要安装一个分词组件"jieba"比较简单,安装就用conda就行,在这里贴出相关的教程,有兴趣的可以仔细研究:

Python中文分词组件使用简单:

  • 官方教程:https://github.com/fxsjy/jieba

  • 民间教程:https://www.oschina.net/p/jieba

话不多说,贴代码:


if __name__ == '__main__': # 文本预处理 folder_path = './SogouC/Sample' # 训练集存放地址 all_words_list, train_data_list, test_data_list, train_class_list, test_class_list = TextProcessing(folder_path, test_size=0.2)
# 生成stopwords_set stopwords_file = './stopwords_cn.txt' stopwords_set = MakeWordsSet(stopwords_file)
test_accuracy_list = [] # 需要去除一定的高频词原因是:高频词一般是:标点符号、了、好、在、当然、是的等等这些东西,对分类是没有用的,所以应该去除一部分高频词 # 但是具体去除多少,是不知道的,所以才有了以下的试验 deleteNs = range(0, 1000, 20) # 0 20 40 60 ... 980 每次运行就取出出现次数最高的前20个词语 for deleteN in deleteNs: feature_words = words_dict(all_words_list, deleteN, stopwords_set) # 提取特征词 train_feature_list, test_feature_list = TextFeatures(train_data_list, test_data_list, feature_words) # 提取特征向量 test_accuracy = TextClassifier(train_feature_list, test_feature_list, train_class_list, test_class_list) # 分类 test_accuracy_list.append(test_accuracy) # 多次试验,每次提取不同的特征词
# ave = lambda c: sum(c) / len(c) # print(ave(test_accuracy_list))
plt.figure() plt.plot(deleteNs, test_accuracy_list) plt.title('Relationship of deleteNs and test_accuracy') plt.xlabel('deleteNs') plt.ylabel('test_accuracy')    plt.show()


这是主程序,按照顺序讲解,第一步是文本预处理


def TextProcessing(folder_path, test_size=0.2): folder_list = os.listdir(folder_path) # 查看folder_path下的文件 data_list = [] # 数据集数据 class_list = [] # 数据集类别
# 遍历每个子文件夹 for folder in folder_list: new_folder_path = os.path.join(folder_path, folder) # 根据子文件夹,生成新的路径 files = os.listdir(new_folder_path) # 存放子文件夹下的txt文件的列表
j = 1 # 遍历每个txt文件 for file in files: if j > 100: # 每类txt样本数最多100个 break with open(os.path.join(new_folder_path, file), 'r', encoding='utf-8') as f: # 打开txt文件 raw = f.read()
word_cut = jieba.cut(raw, cut_all=False) # 精简模式,返回一个可迭代的generator word_list = list(word_cut) # generator转换为list
data_list.append(word_list) # 添加数据集数据 class_list.append(folder) # 添加数据集类别 j += 1
data_class_list = list(zip(data_list, class_list)) # zip压缩合并,将数据与标签对应压缩 random.shuffle(data_class_list) # 将data_class_list乱序 index = int(len(data_class_list) * test_size) + 1 # 训练集和测试集切分的索引值 train_list = data_class_list[index:] # 训练集 test_list = data_class_list[:index] # 测试集 train_data_list, train_class_list = zip(*train_list) # 训练集解压缩 test_data_list, test_class_list = zip(*test_list) # 测试集解压缩
all_words_dict = {} # 统计训练集词频 for word_list in train_data_list: for word in word_list: if word in all_words_dict.keys(): all_words_dict[word] += 1 else: all_words_dict[word] = 1
# 根据键的值倒序排序--单词出现的次数降序排列,后面选择特征时候有用 all_words_tuple_list = sorted(all_words_dict.items(), key=lambda f: f[1], reverse=True) all_words_list, all_words_nums = zip(*all_words_tuple_list) # 解压缩 all_words_list = list(all_words_list) # 转换成列表 return all_words_list, train_data_list, test_data_list, train_class_list, test_class_list


遍历子文件夹,将路径修改成最新的路径,然后遍历txt文件,将文本切割用list存储,切割用到jieba组件,切割好的如下:


《机器学习实战》个人学习分享(三):朴素贝叶斯


取出一个切割好的看看:

《机器学习实战》个人学习分享(三):朴素贝叶斯


下面就是转换成文本向量,在这之前先将数据和标签压缩,为的是方便划分训练集和测试集,这里以0.2作为比率,划分好的训练集71,测试集19,如下:


《机器学习实战》个人学习分享(三):朴素贝叶斯


然后解压缩,统计词频:


all_words_dict = {} # 统计训练集词频 for word_list in train_data_list: for word in word_list: if word in all_words_dict.keys(): all_words_dict[word] += 1 else: all_words_dict[word] = 1


如果如下:


《机器学习实战》个人学习分享(三):朴素贝叶斯


然后是将数据集按照键值排序,转化成列表,这就得到了所有的数据:

《机器学习实战》个人学习分享(三):朴素贝叶斯


在这个实例中有一些停止词,是由于上面排序按照降序排列,那么不可避免的高频词汇是常用的词汇,以这样的作为特征显然是不合适的,所以需要切分前面的词汇,切分的尺度不一定,根据经验或者准确率来确定。
这里几个函数,提取停用词

def MakeWordsSet(words_file): words_set = set() # 创建set集合 with open(words_file, 'r', encoding='utf-8') as f: # 打开文件 for line in f.readlines(): # 一行一行读取 word = line.strip() # 去回车 if len(word) > 0: # 有文本,则添加到words_set中 words_set.add(word)    return words_set  # 返回处理结果


提取的停用词如下:


《机器学习实战》个人学习分享(三):朴素贝叶斯


提取特征向量


def TextFeatures(train_data_list, test_data_list, feature_words): def text_features(text, feature_words): # 出现在特征集中,则置1 text_words = set(text) features = [1 if word in text_words else 0 for word in feature_words] return features
train_feature_list = [text_features(text, feature_words) for text in train_data_list] test_feature_list = [text_features(text, feature_words) for text in test_data_list] return train_feature_list, test_feature_list # 返回结果


提取特征词


def words_dict(all_words_list, deleteN, stopwords_set=set()): feature_words = [] # 特征列表 n = 1 for t in range(deleteN, len(all_words_list), 1): if n > 1000: # feature_words的维度为1000 break # 如果这个词不是数字,并且不是指定的停用语,并且单词长度大于1小于5,那么这个词就可以作为特征词 if not all_words_list[t].isdigit() and all_words_list[t] not in stopwords_set and 1 < len( all_words_list[t]) < 5: feature_words.append(all_words_list[t]) n += 1    return feature_words    



提取后的特征词如下:


《机器学习实战》个人学习分享(三):朴素贝叶斯


然后利用sklearn进行拟合和模型预测,代码如下:


def TextClassifier(train_feature_list, test_feature_list, train_class_list, test_class_list): classifier = MultinomialNB().fit(train_feature_list, train_class_list) test_accuracy = classifier.score(test_feature_list, test_class_list)    return test_accuracy


然后运行代码:


《机器学习实战》个人学习分享(三):朴素贝叶斯


结果如上,可以看出结果并不准确,这个代码也就看看了解原理即可。

05

总结


《机器学习实战》个人学习分享(三):朴素贝叶斯


点击在看,了解更多精彩内容
好看的人都点了在看

以上是关于《机器学习实战》个人学习分享:朴素贝叶斯的主要内容,如果未能解决你的问题,请参考以下文章

机器学习基础——带你实战朴素贝叶斯模型文本分类

NBC朴素贝叶斯分类器 ————机器学习实战 python代码

机器学习实战—— 朴素贝叶斯代码实现

机器学习-朴素贝叶斯

机器学习实战笔记(Python实现)-03-朴素贝叶斯

机器学习实战3:基于朴素贝叶斯实现单词拼写修正器(附Python代码)