机器学习03 线性模型

Posted 思想在拧紧

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了机器学习03 线性模型相关的知识,希望对你有一定的参考价值。

前言:本章先介绍如何使用线性模型(linear model)处理回归任务,再考虑经由映射函数处理二分类任务的对数几率回归(logistic regression, 或 logit regression),和利用样本点投影距离处理二分类任务的线性判别分析(Linear Discriminant Analysis, LDA),最后介绍多分类学习,并指出类别不平衡问题及再缩放(rescaling)的应对策略。


知识点

输入属性若存在关系(order),可通过连续化转为连续值;不存在序关系,则转化为n维向量,若将其连续化,则对距离计算等造成误导(9.3节)

线性判别分析(Linear Discriminant Analysis, LDA)的思想:异样本的投影尽可能远;同样本的投影尽可能近。

多分类学习处理思路:拆解法,将多分类任务拆为若干个二分类任务求解。具体策略有“一对一”(One vs. One, OVO)、“一对其余”(One vs. Rest, OvR)和“多对多”(Many vs. Many, MvM)。

拆解策略特点
OvO将N个类别任意两两配对,产生 N(N-1)/2 个二分类任务。
OvR产生 N 个分类任务。
训练每个训练器使用全部训练样例
MvM将若干个类作为正类,若干其他类作为反类。正反例构造需要使用纠错输出码(Error Correcting Output Codes. ECOC)

类别不平衡问题:分类任务中不同类别的训练样例数目不相当(如,正例有998个,而反例有2个)。

存在于不同类别的训练样例数不同的原始问题中,也存在于处理多分类时拆解分类任务后。

处理方法:再缩放(rescaling)–对训练集中的反例进行欠采样(undersampling);对训练集中的正例进行过采样(oversampling);阈值移动(threshold-moving)。

问题

E ( w , b ) E_(w, b) E(w,b)为什么是关于 w w w b b b 的凸函数?为什么关于 w w w b b b 的导数均为零时,得到 w w w b b b 的最优解?

E ( w , b ) E_(w, b) E(w,b)若为一般的二元函数,可由定义判定凹凸性;若为可微函数,可由两充要条件判断。

充要条件1(一阶条件):设 R c R_c Rc E n E_n En 上的开凸集, f ( X ) f(X) f(X) R c R_c Rc 上可微,则 f ( X ) f(X) f(X) R c R_c Rc 上的凸函数的充要条件是:对任意不同两点 X ( 1 ) ∈ R c X^(1) \\in R_c X(1)Rc X ( 2 ) ∈ R c X^(2) \\in R_c X(2)Rc,恒有 f ( X ( 2 ) ) ≥ f ( X ( 1 ) ) + ∇ f ( X ( 1 ) ) T ( X ( 2 ) = X ( 1 ) ) f(X^(2)) \\geq f(X^(1))+\\nabla f\\left(X^(1) \\right) ^T(X^(2)=X^(1)) f(X(2))f(X(1))+f(X(1))T(X(2)=X(1))

充要条件2(二阶条件):设 R c R_c Rc E n E_n En 上的开凸集, f ( X ) f(X) f(X) R c R_c Rc 上二阶可微,则 f ( X ) f(X) f(X) R c R_c Rc 上的凸函数(严格凸函数)的充要条件是:对所有 X ∈ R c X \\in R_c XRc,其黑塞矩阵半正定(正定)。

凸函数的任意极大(小)值为其最大(小)值,且凸函数的驻点就是全局最优点。


待办:

P56:为什么当 X T X X^TX XTX 不是满秩矩阵,可以解出多个 w ^ \\hatw w^

P59:书写3.25中的似然项,即3.26

P61:公式推导

以上是关于机器学习03 线性模型的主要内容,如果未能解决你的问题,请参考以下文章

机器学习基石-8

03_有监督学习--简单线性回归模型(调用 sklearn 库代码实现)

固定维数(N=9)、对称、半正定的密集线性系统的快速求解

背景数学知识简述

背景数学知识简述

机器学习:线性模型学习总结:基于PyTorch的线性模型