南瓜书ML(task1)绪论+模型评估与选择
Posted 山顶夕景
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了南瓜书ML(task1)绪论+模型评估与选择相关的知识,希望对你有一定的参考价值。
学习总结
- 学习南瓜书,先看西瓜书本—第1章和第2章主要是讲一些基本概念和术语,可以先跳过以下知识点,等后面部分学完后再来回顾:
第1章:【1.4-归纳偏好】可以跳过
第2章:【2.3.3-ROC与AUC】及其以后的都可以跳过 - 高阶指标包括 P-R 曲线,ROC 曲线和平均精度均值。P-R 曲线的横坐标是召回率,纵坐标是精确率;ROC 曲线的横坐标是假阳性率,纵坐标是真阳性率。平均精度均值 mAP是对每个用户的精确率均值的再次平均。
文章目录
一、机器学习导言
1.1 基本术语和符号表
(1)基本术语
- 学习任务分为两大类:监督学习、无监督学习
- 独立同分布:假设样本空间中,全体样本服从一个未知“分布”,获得的每个样本都是独立地从这个分布上采样获得
- 两大任务:
- 分类:预测值为离散值的问题
- 回归:预测值为连续值的问题
其他概念:
归纳、演绎、概念学习、假设空间、版本空间;
归纳偏好(偏好)、奥卡姆剃刀。
(2)符号表(书中常用)
- x x x-一标量
- x − \\boldsymbolx- x−-向量
- x \\mathbfx x 一一变量集
- A 一一矩阵
- I-一单位阵
- X \\mathcalX X 一一样本空间或状态空间
- D一概率分布
- D D D —一数据样本(数据集)
- H一一假设空间
- H一一假设集
- L一一学习算法
- ( ⋅ , ⋅ , ⋅ ) (\\cdot, \\cdot, \\cdot) (⋅,⋅,⋅) 一一行向量
- ( ⋅ ; ⋅ ⋅ ) (\\cdot ; \\cdot \\cdot) (⋅;⋅⋅) 一一列向量
- ( ⋅ ) ⊤ (\\cdot)^\\top (⋅)⊤ 一一向量或矩阵转置
- ⋯ \\\\cdots\\ ⋯ 一一集合
- ∣ ⋯ ∣ |\\\\cdots\\| ∣⋯∣ 一一集合 ⋯ \\\\cdots\\ ⋯ 中元素的个数
- ∥ ⋅ ∥ p − − L p \\|\\cdot\\|_p--L_p ∥⋅∥p−−Lp 范数, p缺省时为 L 2 L_2 L2 范数
- P ( ⋅ ) , P ( ⋅ ∣ ⋅ ) P(\\cdot), P(\\cdot \\mid \\cdot) P(⋅),P(⋅∣⋅) 一一概率质量函数, 条件概率质量函数
- p ( ⋅ ) , p ( ⋅ ∣ ⋅ ) p(\\cdot), p(\\cdot \\mid \\cdot) p(⋅),p(⋅∣⋅) 一一概率密度函数, 条件概率密度函数
- E ∼ ∼ D [ f ( ⋅ ) ] \\mathbbE_\\sim \\sim \\mathcalD[f(\\cdot)] E∼∼D[f(⋅)] 一一函数 f ( ⋅ ) f(\\cdot) f(⋅) 对.在分布 D \\mathcalD D 下的数学期望;意义明确时将省略 D \\mathcalD D 和(或).
- sup ( ⋅ ) \\sup (\\cdot) sup(⋅) 一一上确界
- I ( ⋅ ) \\mathbbI(\\cdot) I(⋅) 一一指示函数, 在.为真和假时分别取值为 1,0
- sign ( ⋅ ) 一一符号函数, 在 : < 0 , = 0 , > 0 时分别取值为 − 1 , 0 , 1 \\operatornamesign(\\cdot) \\text 一一符号函数, 在 :<0,=0,>0 \\text 时分别取值为 -1,0,1 sign(⋅) 一一符号函数, 在 :<0,=0,>0 时分别取值为 −1,0,1
对上面的几个解释:
- 空间可以简单的理解为集合,假设空间是一个超集(全集)
- 全集的一部分被称为假设集,可以认为假设集是假设空间的一个子集
逗号分割:行向量
分号分割:列向量
指示函数:把逻辑空间映射成0,1进而参与运算
1.2 经验误差与过拟合
- 错误率:在m个样本中有个a个样本分类错误,错误率为E=a/m
- 误差:学习器的prediction和样本的真实label之间的差距
- 训练误差or经验误差:学习器在训练集上的误差
- 泛化误差:学习器在新样本上的误差
1.3 公式推导部分
- 假设样本空间 X \\mathcalX X 和假设空间 H \\mathcalH H 都是离散的. 令 P ( h ∣ X , L a ) P\\left(h \\mid X, \\mathfrakL_a\\right) P(h∣X,La) 代表算法 L a \\mathfrakL_a La 基于训练数据 X X X 产生假设 h h h 的概率
- 令 f f f 代表我们希望学习的 真实目标函数. L a \\mathfrakL_a La 的 “训练集外误差”, 即 L a \\mathfrakL_a La 在训练集之外的所有样本上的误差为:
E
o
t
e
(
L
a
∣
X
,
f
)
=
∑
h
∑
x
∈
X
−
X
P
(
x
)
I
(
h
(
x
)
≠
f
(
x
)
)
P
(
h
∣
X
,
L
a
)
E_o t e\\left(\\mathfrakL_a | X, f\\right)=\\sum_h \\sum_\\boldsymbolx \\in \\mathcalX-X P(\\boldsymbolx) \\mathbbI(h(\\boldsymbolx) \\neq f(\\boldsymbolx)) P\\left(h | X, \\mathfrakL_a\\right)
Eote(La∣X,f)=h∑x∈X−X∑P(x)I(h(x)=f(x))P(h∣X,La)
其中
I
(
⋅
)
是指示函数, 若. 为真则取值
1
, 否则取值
0
.
\\text 其中 \\mathbbI(\\cdot) \\text 是指示函数, 若. 为真则取值 1 \\text , 否则取值 0 \\text .
其中 I(⋅) 是指示函数, 若. 为真则取值 1, 否则取值 0.
考虑二分类问题, 且真实目标函数可以是任何函数
X
↦
0
,
1
\\mathcalX \\mapsto\\0,1\\
X↦0,1, 函数空间 为
0
,
1
∣
X
∣
\\0,1\\^|\\mathcalX|
0,1∣X∣. 对所有可能的
f
f
f 按均匀分布对误差求和, 有: 以上是关于南瓜书ML(task1)绪论+模型评估与选择的主要内容,如果未能解决你的问题,请参考以下文章
∑
f
E
o
t
e
(
L
a
∣
X
,
f
)
=
∑
f
∑
h
∑
x
∈
X
−
X
P
(
x
)
I
(
h
(
x
)
≠
f
(
x
)
)
P
(
h
∣
X
,
L
a
)
=
∑
x
∈
X
−
X
P
(
x
)
∑
h
P
(
h
∣
X
,
L
a
)
∑
f
I
(
h
(
x
)
≠
f
(
x
)
)
=
∑
x
∈
X
−
X
P
(
x
)
∑
h
P
(
h
∣
X
,
L
a
)
1
2
2
∣
X
∣
=
1
2
2
∣
X
∣
∑
x
∈
X
−
X
P
(
x
)
∑
h
P
(
h
∣
X
,
L
a
)
=
2
∣
X
∣
−
1
∑
x
∈
X
−
X
P
(
x
)
⋅
1
\\beginaligned \\sum_fE_ote(\\mathfrakL_a\\vert X,f) &= \\sum_f\\sum_h\\sum_\\boldsymbolx\\in\\mathcalX-XP(\\boldsymbolx)\\mathbbI(h(\\boldsymbolx)\\neq f(\\boldsymbolx))P(h\\vert X,\\mathfrakL_a) \\\\ &=\\sum_\\boldsymbolx\\in\\mathcalX-XP(\\boldsymbolx) \\sum_hP(h\\vert X,\\mathfrakL_a)\\sum_f\\mathbbI(h(\\boldsymbolx)\\neq f(\\boldsymbolx)) \\\\ &=\\sum_\\boldsymbolx\\in\\mathcalX-XP(\\boldsymbolx) \\sum_hP(h\\vert X,\\mathfrakL_a)\\cfrac122^\\vert \\mathcalX \\vert \\\\ &=\\cfrac122^\\vert \\mathcalX \\vert\\sum_\\boldsymbolx\\in\\mathcalX-XP(\\boldsymbolx) \\sum_hP(h\\vert X,\\mathfrakL_a) \\\\ &=2^\\vert \\mathcalX \\vert-1\\sum_\\boldsymbolx\\in\\mathcalX-XP(\\boldsymbolx) \\cdot 1\\\\ \\endaligned
f∑Eote(La∣X,f)=f∑h∑x∈X−X∑P(x)I(h(x)=f(x))P(h∣X,L