机器学习入门(4~9)

Posted Jozky86

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了机器学习入门(4~9)相关的知识,希望对你有一定的参考价值。

文章目录

数学基础(004,005)

线性代数:略

高数:

梯度(Gradient):

概率统计基础知识

常用统计变量

常用概率分布

重要概率公式

p(B|A):A发生的条件下B发生的概率

机器学习概述

机器学习的过程:
海量数据–>获得模型(提炼规律)–>预测未来

主要分类:


无监督学习

只有输入的数据,没有对应的结果
无监督学习算法不是相应反馈,而是要识别数据中的共性特征
分组和聚类
应用:谷歌新闻,将新闻分组,组成有关联的新闻,然后按主题显示给用户

有监督学习

当输出被限制为有限的一组值(离散数值)时使用分类算法;
当输出可以具有范围内的任何数值(连续数值)时使用回归算法
应用:预测房价或房价出售情况

监督学习三要素

模型+策略+算法

监督学习实验步骤

模型评估策略

训练集和测试集

数据分为:训练集和测试集

损失函数

衡量模型预测误差的大小,记作L(Y,f(X))
损失函数是系数的函数

常见损失函数:

经验风险

模型f(x)关于训练数据集的平均损失称为经验风险(empirial risk),记作Remp

训练误差和测试误差

测试误差更重要,真正反映了模型对未知数据的预测能力,这种能力一般被称为泛化能力

过拟合和欠拟合

欠拟合:模型没有很好捕捉到数据特征,特征集过小,导致模型不能很好地地拟合数据
过拟合:把噪声数据的特征也学习到了,特征集过大,模型泛化能力太差

模型的选择

正则化

在经验风险上加上表示模型复杂度的正则化项,或者叫惩罚项

奥卡姆剃刀

原则:如无必要,勿增实体
如果简单的模型已经够用,不应该一味追求更小的训练误差,而把模型变得越来越复杂

交叉验证

样本数据充足:随机将数据集切成三部分:训练集,验证集和测试集
训练集用于训练模型,验证集用于模型选择,测试集用于学习方法评估
数据不充足,可以重复地利用数据–交叉验证:

分类和回归

分类问题预测数据属于哪一类别。—离散
回归问题根据数据预测一个数值。–连续

分类问题

精确率和召回率


回归问题

回归问题的学习等价于函数拟合:选择一条函数曲线,使其更好地拟合已知数据,并能够很好地预测未知数据

分类:

模型求解算法(学习算法)

1.梯度下降算法


梯度下降不一定是最优解,有可能是局部极小值
如果损失函数是凸函数,梯度下降法得到的解一定是全局最优解

2.牛顿法和拟牛顿法

以上是关于机器学习入门(4~9)的主要内容,如果未能解决你的问题,请参考以下文章

开源推荐 5快速入门 Google 机器学习系统 TensorFlow

机器学习入门(4~9)

大数据 & AI 人工智能数据科学家必学的 9 个核心机器学习算法

我的推荐系统入门经验~(文末有福利)

一折机器学习经典入门书籍(含英文电子版)

学习资源 | 机器学习入门推荐资源