从最大似然估计的角度理解线性回归和逻辑回归

Posted 2022-11-18 Babyface Killer

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了从最大似然估计的角度理解线性回归和逻辑回归相关的知识，希望对你有一定的参考价值。

写在前面的话

转眼学习数据分析和机器学习也有一年了，虽然上手了不少项目也实际应用过很多机器学习算法，但对于算法的原理和推导确实也还在一知半解的程度。为了知其然还要知其所以然，本篇文章就从最统计学最基础的最大似然估计来推导线性回归和逻辑回归的损失函数。

最大似然估计

通俗地来说，最大似然估计所要达成的目标就是找到一组参数使得表达的概率分布能够在最大程度上拟合观测到的样本的联合概率分布。这句话用数学的语言表达就是：或者。虽然在很多非正式场合概率和似然经常被混为一谈，但是这两个概念其实是不同的。概率表达的是给定模型参数，观察到样本的概率，而似然则表达的是给定观测值后描述分布的参数是否合理。因此对于上述的问题，其实更合理的表达应为,其中表示的就是likelihood。虽然对于问题的定义很简洁，但是实际操作起来还是有一定的问题。样本的联合概率分布可以表达为：，其中每个样本在给定参数时观测到的概率一定小于1，将多个小概率连乘在实际应用中是非常不稳定的，因此可以利用的性质将前式转化为。对于优化问题，常常将求最大值转化为求最小值（因为大部分常用的优化解法默认setup都是最小化问题），因此最大似然估计的问题就变为：

线性回归

对于有监督学习类的问题，因为样本有类别属性和目标值，因此对于观察到样本概率的表达也应转变为条件概率。且根据线性回归模型定义：，因此最大似然估计在这里要通过改变来最大化观测到样本的概率。于是对于线性回归问题，最大似然估计表达为：。线性回归有一个重要假设就是误差项符合正态分布，即误差项的概率密度函数可表示为：,其中误差项可表示为。将概率密度函数带入最大似然估计得到：