day03-二分类问题

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了day03-二分类问题相关的知识,希望对你有一定的参考价值。

参考技术A 输入变量X和输出变量Y有不同类型,可以连续,可以离散。根据输入输出变量的不同类型,对预测人物给予不同的名称。输入输出变量均为连续变量的预测问题称为回归问题;输出变量为有限个离散变量的预测问题称为分类问题;输入输出变量均为变量序列问题称为标注问题

二分类问题就是简单的“是否”,“有无”问题,例如输出变量为0或1。

1、准确率
2、混淆矩阵
3、精准率、召回率、F1_score
4、auc
5、logloss

1、逻辑回归
2、svm
3、决策树
4、随机森林
5、Adaboost
6、xgboost
7、lightgbm
8、catboost
9、朴素贝叶斯

1.1 线性回归原理
概念:
线性回归是一种通过线性组合来进行预测的线性模型,其目的是找到一条直线或者一个平面或者更高维度的超平面,使得预测值与真实值之间的误差最小化。
线性回归:

线性回归是通过数据在N维空间找到h(x)来描述这些规律,这个过程称为拟合。h(x)的预测值与真实值会有偏差,也称为残差。线性回归一般使用残差的平方来计算损失,即损失函数为:

优缺点:
优:权重w是每个变量x的权重,通过w的大小可以看出每个x的重要性,有很好的解释性
缺:非线性数据拟合不好

1.2 逻辑回归原理
从1.1中可知,h(x)预测值是连续的,是一个回归模型。但是如果我们希望输出是离散的,则需要将h(x)进行一个函数转换,变成g(Y),其中g(Y)中的某些值属于类别1,另外的属于其他类别,这样的模型则为二分类模型。
此时g可以为:

g函数也被称为sigmoid函数。
当sigmoid函数计算出的值大于0.5的归为类别1,小于0.5的归为类别0
假设预测真实样本为1的概率为pi,则预测真实样本为0的概率为1-pi,那么预测概率为:

使用随机梯度下降优化损失函数:
损失函数:

以上是关于day03-二分类问题的主要内容,如果未能解决你的问题,请参考以下文章

03 Types of Learning

SVM+二分类+多分类

24二分类多分类与多标签问题的区别

电影评论分类:二分类问题

Python深度学习案例1--电影评论分类(二分类问题)

逻辑回归-6.解决多分类问题