机器学习03 线性模型
Posted 思想在拧紧
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了机器学习03 线性模型相关的知识,希望对你有一定的参考价值。
前言:本章先介绍如何使用线性模型(linear model)处理回归任务,再考虑经由映射函数处理二分类任务的对数几率回归(logistic regression, 或 logit regression),和利用样本点投影距离处理二分类任务的线性判别分析(Linear Discriminant Analysis, LDA),最后介绍多分类学习,并指出类别不平衡问题及再缩放(rescaling)的应对策略。
知识点
输入属性若存在序关系(order),可通过连续化转为连续值;不存在序关系,则转化为n维向量,若将其连续化,则对距离计算等造成误导(9.3节)
线性判别分析(Linear Discriminant Analysis, LDA)的思想:异样本的投影尽可能远;同样本的投影尽可能近。
多分类学习处理思路:拆解法,将多分类任务拆为若干个二分类任务求解。具体策略有“一对一”(One vs. One, OVO)、“一对其余”(One vs. Rest, OvR)和“多对多”(Many vs. Many, MvM)。
拆解策略 | 特点 |
---|---|
OvO | 将N个类别任意两两配对,产生 N(N-1)/2 个二分类任务。 |
OvR | 产生 N 个分类任务。 训练每个训练器使用全部训练样例 |
MvM | 将若干个类作为正类,若干其他类作为反类。正反例构造需要使用纠错输出码(Error Correcting Output Codes. ECOC) |
类别不平衡问题:分类任务中不同类别的训练样例数目不相当(如,正例有998个,而反例有2个)。
存在于不同类别的训练样例数不同的原始问题中,也存在于处理多分类时拆解分类任务后。
处理方法:再缩放(rescaling)–对训练集中的反例进行欠采样(undersampling);对训练集中的正例进行过采样(oversampling);阈值移动(threshold-moving)。
问题
E ( w , b ) E_(w, b) E(w,b)为什么是关于 w w w 和 b b b 的凸函数?为什么关于 w w w 和 b b b 的导数均为零时,得到 w w w 和 b b b 的最优解?
E ( w , b ) E_(w, b) E(w,b)若为一般的二元函数,可由定义判定凹凸性;若为可微函数,可由两充要条件判断。
充要条件1(一阶条件):设 R c R_c Rc 为 E n E_n En 上的开凸集, f ( X ) f(X) f(X) 在 R c R_c Rc 上可微,则 f ( X ) f(X) f(X) 为 R c R_c Rc 上的凸函数的充要条件是:对任意不同两点 X ( 1 ) ∈ R c X^(1) \\in R_c X(1)∈Rc 和 X ( 2 ) ∈ R c X^(2) \\in R_c X(2)∈Rc,恒有 f ( X ( 2 ) ) ≥ f ( X ( 1 ) ) + ∇ f ( X ( 1 ) ) T ( X ( 2 ) = X ( 1 ) ) f(X^(2)) \\geq f(X^(1))+\\nabla f\\left(X^(1) \\right) ^T(X^(2)=X^(1)) f(X(2))≥f(X(1))+∇f(X(1))T(X(2)=X(1)) 。
充要条件2(二阶条件):设 R c R_c Rc 为 E n E_n En 上的开凸集, f ( X ) f(X) f(X) 在 R c R_c Rc 上二阶可微,则 f ( X ) f(X) f(X) 为 R c R_c Rc 上的凸函数(严格凸函数)的充要条件是:对所有 X ∈ R c X \\in R_c X∈Rc,其黑塞矩阵半正定(正定)。
凸函数的任意极大(小)值为其最大(小)值,且凸函数的驻点就是全局最优点。
待办:
P56:为什么当 X T X X^TX XTX 不是满秩矩阵,可以解出多个 w ^ \\hatw w^ ?
P59:书写3.25中的似然项,即3.26
P61:公式推导
以上是关于机器学习03 线性模型的主要内容,如果未能解决你的问题,请参考以下文章