标题

Posted SUN_DRAGON

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了标题相关的知识,希望对你有一定的参考价值。

统计学习方法

统计学习

1.本章主要是对统计学习所需要的概念知识做梳理。

对于一个有监督问题,我们希望根据样本训练出一个可以预测未知样本的模型。在于学习一个由输入到输出的映射,而这个映射就是模型。

首选需要确定一点:假设空间。即我们的模型是哪一类模型。首先假设要学习的模型属于某个函数集合。说白了就是一个带有参数的函数 fθ(X,Y)

然后,就是如何得到确定的模型,即确定 θ 的值。根据已知的样本 (X,Y) 和一个函数集(假设空间),得到一个较好的 θ 值。

在解决这个问题前,需要解决两个问题:1、什么是好的 θ 值;2、根据什么方法得到。其中第一个问题,就是要设计一个目标函数,尽量在样本都满足时,样本是最大的或者是最小的,这样子就转变为一个优化问题。第二问题就是要解这个优化问题。

2.主要介绍统计学习的三个要素,模型、策略、算法

模型:就是选择的函数集(包含了所有可能的模型的假设空间—-所有可能的条件概率分布和决策函数)

策略:按照什么样子的准则学习或者选择优化模型。统计学习的目标就是从假设空间中选择最优模型。
- 损失函数:一次预测的好坏。来度量预测的错误程度。
- 风险函数:平均意义下,模型预测的好坏。理论上,风险函数的联合概率分布是已知的,但在实际应用中是不可能。从而根据大数定理,用经验风险来逼近风险函数。
其中的策略包括:
1.经验风险最小化(ERM)
需要较大的样本。认为经验风险最小的模型最优。
2.结构风险最小化(MAP)
防止过度拟合。增加惩罚项,惩罚项跟模型的复杂度正相关。而模型的复杂度跟参数的多少有关。

算法:解优化目标问题。

3.模型的评价

当损失函数给定,基于损失函数的模型训练误差和模型的测试误差就成为评估方法。
训练误差,评价是不是一个容易学习的问题。
测试误差,评价对未知测试数据的预测能力。

4.模型的选择

1.正则化,处理过度拟合问题。
2.交叉验证,对于具有需要人工选择某个参数大小时,如正则化中的 λ

以上是关于标题的主要内容,如果未能解决你的问题,请参考以下文章

请问工作中的电路板怎样测试三极管好坏

在测试电脑电源好坏时(24针)绿黑线短路,给电风扇转,断电再给电风扇不转,

将本地时间转换为用户首选时区,将用户首选时区转换为 GMT

JavaFX 获取窗格的首选大小

设计模式学习笔记如何评判代码质量的好坏?

首选命名空间前缀列表?