带有 R 的朴素贝叶斯分类 - 奇怪的结果
Posted
技术标签:
【中文标题】带有 R 的朴素贝叶斯分类 - 奇怪的结果【英文标题】:Naive Bayes Classification with R - strange result 【发布时间】:2018-02-12 03:39:19 【问题描述】:我有以下问题:我想使用带有贝叶斯分类器的两个变量“性别”和“年龄组”来预测因子变量“癌症”(是或否)。 这些是我的(虚构的)样本数据:
install.packages("e1071")
install.packages("gmodels")
library(e1071)
library(gmodels)
data<-read.csv("http://www.reduts.net/cancer.csv", sep=";", stringsAsFactors = T)
## Sex and Agegroup ##
######################
# classification
testset<-data[,c("sex", "agegroup")]
cancer<-data[,"cancer"]
model<-naiveBayes(testset, cancer)
model
# apply model on testset
testset$predicted<-predict(model, testset)
testset$cancer<-cancer
CrossTable(testset$predicted, testset$cancer, prop.chisq=F, prop.r=F, prop.c=F, prop.t = F)
结果显示,根据我的数据,男性和年轻人更容易患癌症。与真正的癌症分类相比,我的模型在 200 个病例中正确分类了 147 个 (=88+59) (73.5%)。
| testset$original
testset$predicted | no | yes | Row Total |
------------------|-----------|-----------|-----------|
no | 88 | 12 | 100 |
------------------|-----------|-----------|-----------|
yes | 54 | 46 | 100 |
------------------|-----------|-----------|-----------|
Column Total | 142 | 58 | 200 |
------------------|-----------|-----------|-----------|
但是,然后我只使用一个分类变量(性别)来做同样的事情:
## Sex only ##
######################
# classification
testset2<-data[,c("sex")]
cancer<-data[,"cancer"]
model2<-naiveBayes(testset2, cancer)
model2
型号如下:
Naive Bayes Classifier for Discrete Predictors
Call:
naiveBayes.default(x = testset2, y = cancer)
A-priori probabilities:
cancer
no yes
0.645 0.355
Conditional probabilities:
x
cancer f m
no 0.4573643 0.5426357
yes 0.5774648 0.4225352
显然,男性比女性更容易患癌症(54% 对 46%)。
# apply model on testset
testset2$predicted<-predict(model2, testset2)
testset2$cancer<-cancer
CrossTable(testset2$predicted, testset2$cancer, prop.chisq=F, prop.r=F, prop.c=F, prop.t = F)
现在,当我将模型应用于原始数据时,所有案例都归为同一类:
Total Observations in Table: 200
| testset2$cancer
testset2$predicted | no | yes | Row Total |
-------------------|-----------|-----------|-----------|
no | 129 | 71 | 200 |
-------------------|-----------|-----------|-----------|
Column Total | 129 | 71 | 200 |
-------------------|-----------|-----------|-----------|
谁能解释一下,为什么女性和男性被分配到同一个班级?
【问题讨论】:
【参考方案1】:您误解了这些输出。 当你打印出model2并看到
Conditional probabilities: x cancer f m no 0.4573643 0.5426357 yes 0.5774648 0.4225352
“显然,男性更有可能”的结论是错误的 与女性相比 (54% vs 46%)。”
这张表告诉我们的是四个数字
P(female | no cancer) P(male | no cancer) P(female | cancer) P(male | cancer)
通过查看输出很容易看到
table(cancer, testset2) testset2 cancer f m no 59 70 yes 41 30
模型的第一行条件概率可以计算如下: 129 人未患癌症。 59/129 = 0.4573643 是女性。 70/129 = 0.5426357 是男性。所以阅读第一行的方法是 “鉴于患者没有癌症,他们更 可能是男性(54% 对 46%)”。
现在回答你的问题:谁能解释一下,为什么两者都有 男女分到同一个班?
要决定将男性分配到哪个班级,您需要比较P(Cancer | Male)
和P(No Cancer | male)
。无论哪个更大,
我们将声明以指示类。使用朴素贝叶斯时,这些
通过应用贝叶斯规则将其重新表述为比较来估计
P(Cancer | Male) = P(Male | Cancer) * P(Cancer) / P(Male) with P(No Cancer | Male) = P(Male | No Cancer) * P(No Cancer) / P(Male)
分母在这两种情况下是相同的,所以如果我们只关心 哪个更大,我们可以比较一下大小
P(Male | Cancer) * P(Cancer)
与 P(Male | No Cancer) * P(No Cancer)
这些正是打印出模型时报告的数字。
所以,对于男性来说
P(Male | Cancer) * P(Cancer) = 0.4225352 * 0.355 = 0.15
P(Male | No Cancer) * P(No Cancer) = 0.5426357 * 0.645 = 0.35
(注意:这些不是真实概率,因为我们忽略了分母
P(Male)
) 由于 No Cancer 的数字更高,我们预测男性为 No Cancer。
同样,对于女性,我们计算
P(Female | Cancer) * P(Cancer) = 0.5774648 * 0.355 = 0.205
P(Female | No Cancer) * P(No Cancer) = 0.4573643 * 0.645 = 0.295
对于女性,我们也预测不会患癌症。强调这一点可能很有用
女性的计算。即使P(Female | Cancer) > P(Female | No Cancer)
,
这些由P(Cancer)
和P(No Cancer)
的总体概率加权。
由于总体而言,它更有可能没有癌症而不是癌症,因此
开关哪个更大。朴素贝叶斯预测男女都不会患癌症。
【讨论】:
以上是关于带有 R 的朴素贝叶斯分类 - 奇怪的结果的主要内容,如果未能解决你的问题,请参考以下文章