数学建模暑期集训11:逻辑回归(Logistic Regression)处理二分类问题

Posted Z|Star

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了数学建模暑期集训11:逻辑回归(Logistic Regression)处理二分类问题相关的知识,希望对你有一定的参考价值。

在数学建模中,我们经常会遇到这样的问题:根据xx症状判断是否得病、根据xxx指标判断是否违约。对于这种只包含“是和否”两类的答案的二分类问题,逻辑回归最为适用。

1.逻辑回归是什么

逻辑回归是机器学习基本算法之一,可以看作特殊的一般回归。
通过线性回归,一般可以得到这样的表达式:
在这里插入图片描述
这个y值可以理解为“y=1”发生的概率。
然而,概率一般都是处于[0,1]之间,因此,需要一个函数将这个值映射到[0,1]这个范围内。
这个函数通常选用Sigmoid函数:
在这里插入图片描述

2.逻辑回归的求解

求解逻辑回归,可以用极大似然估计或者梯度下降法。
在这里插入图片描述
这里有些难理解,先放着,下面用SPSS来实操。

3.SPSS求解逻辑回归问题

3.1原始数据

在这里插入图片描述
二分类问题:基于长、宽等信息区分苹果和橘子。

3.2开始分析

在这里插入图片描述
按照图中步骤即可。

3.3查看结果

在这里插入图片描述
分类表即混淆矩阵,斜对角线是分对的数量,右下角76.3是平均的正确率。
可以发现,该方法的正确率并不是非常高。
方程中的具体数值可以根据下表查看:
在这里插入图片描述

3.4定性变量的处理

很多情况下,变量没有数值。比如分类的结果是apple&orange,可以通过创建虚变量来自动置0或置1。
在这里插入图片描述

3.5增加平方项提高正确率

在这里插入图片描述
通过上面的操作可以引入新的平方变量,比如 m a s s mass mass作为自变量1, m a s s 2 mass^2 mass2作为自变量2,这样可以显著提高准确率,不过本质上是过拟合。
过拟合,机器学习上的概念。(在训练集上表现好,测试集上表现差)
在这里插入图片描述
如上图所示,过拟合即绿色的线,把原本数据中的一些偏差也强制学习进去,导致效果变差。

3.6过拟合的改进

在这里插入图片描述
防止过拟合的发生,将数据分成训练集和测试集。(这就和机器学习非常类似了)
这种方法存在偶然性,并非万能之策,使用时应根据数据综合考虑。

以上是关于数学建模暑期集训11:逻辑回归(Logistic Regression)处理二分类问题的主要内容,如果未能解决你的问题,请参考以下文章

数学建模暑期集训6:用SPSS对数据进行多元线性回归分析

数学建模暑期集训21:主成分分析(PCA)

数学建模暑期集训9:灰色关联分析

Logistic回归 逻辑回归 练习——以2018建模校赛为数据源

逻辑回归(Logistic Regression)

机器学习 | Logistic Regression(逻辑回归)中的损失函数