1.0 机器学习概念介绍

Posted shijieli

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了1.0 机器学习概念介绍相关的知识,希望对你有一定的参考价值。

机器学习的基本概念

数据

技术图片

数据集

数据的整体叫做数据集   ( data set )

样本

每一行数据被称为一个样本   ( sample )

标记   

最后一列, 称为标记   ( label )

特征

表中的每个列都是一个特征, 用特征向量来表示一个特征值

技术图片

特征空间

特征进行数据表示后的范围空间

此图中的形式是一个二维的特征空间, 高维的话则基于低维进行推导即可

技术图片

抽象特征

很多的特征并不一定非要具体, 比如图像识别像素点

技术图片

机器学习的基本任务

分类任务

二分类

技术图片

多分类

 技术图片

技术图片

技术图片

多标签分类

技术图片

回归任务

技术图片

技术图片

 技术图片

 

 什么是机器学习

技术图片

机器学习方法的分类

监督学习

给机器的训练数据拥有 "标记" 或者 "答案"

监督学习的应用场景

技术图片

监督学习的算法

技术图片

非监督学习

给机器的训练数据没有 "标记" 或者 "答案"

聚类分析

对没有 "标记" 的数据进行分类 - 聚类分析

技术图片

降维处理

特征提取  

信用卡的评级和人的身高如何关系?

特征压缩  

PCA, 如下图这种二维的特征表示呈现出一种一维的线性表现, 这时可进行特征压缩

在尽量少损失特征信息的情况下, 将高维的特征向量压缩成低纬的特征向量, 大大提高效率而且不会降低质量

技术图片

方便可视化

 高维有点不好处理, 降维自然容易理解

异常检测

如下图中的两个红点就很不适合整体的状态, 因此检测出后进行干预即可

 技术图片

半监督学习

给机器的训练数据一部分有 "标记" 或者 "答案", 另一部分没有

在现实中更常见, 各种原因都会产生标记的缺失

技术图片

增强学习

 技术图片

 无人驾驶, 机器人等应用场景

机器学习方法的其他分类

批量学习 - Batch Learning

技术图片

进行一个批次的数据样本进行学习以及辨识, 训练出的算法线上投入使用

不会对新的数据样本来更新自己的学习能力, 运算识别能力基于最初的效率和质量

优点  简单

如何适应环境变化 ?   - 定时重新批量学习

缺点  每次重新批量学习, 运算量巨大, 某些环境变化快的情况下, 基本无望

在线学习 - Online Learning

进行一个批次的数据样本进行学习以及辨识, 训练出的算法线上投入使用

会对新的数据样本来更新自己的学习能力, 运算识别能力会基于最初的版本不断的自动优化提升适应当前的样本情景

技术图片

优点  及时反映新的环境变化

新数据带来不好的变化 ?   - 加强对数据的监控

其他  也适用于数据量巨大, 完全无法批量学习的环境

参数学习

假设存在某个参数, 大量的数据集都是基于此参数存在的一个具体实例

分析数据集本身就是为了获得参数

技术图片

 

非参数学习

技术图片

和机器学习相关的哲学思考

数据即算法?

技术图片

算法为王?

技术图片

如何选择机器学习算法?

技术图片

 

 奥卡姆剃刀

技术图片

没有免费午餐定律

技术图片

技术图片

其他思考

 技术图片

 

以上是关于1.0 机器学习概念介绍的主要内容,如果未能解决你的问题,请参考以下文章

1.0初识机器学习

机器学习介绍及基本概念

Machine Learn机器学习及其基础概念简介

机器学习基础---应用实例(图片文字识别)和总结

机器学习基础---应用实例(图片文字识别)和总结

机器学习与深度学习基础概念介绍