机器学习算法
Posted lgx-fighting
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了机器学习算法相关的知识,希望对你有一定的参考价值。
1.激活函数:
2.超参数:是在开始学习过程之前设置值的参数,而不是通过训练得到的参数数据。通常情况下,需要对超参数进行优化,给学习机选择一组最优超参数,以提高学习的性能和效果
3.特征提取:
特征工程:若出现特征为字符串类型则使用独热编码
良好特征具备的特性:1.特征值应以非零值的形式在数据集中多次出现2.应该具有清晰明确的含义。3.特征不应使用“神奇”的值4.特征的定义不应随时间发生变化(注意对其他机器学习系统的依赖性)
4.特征组合:1.线性学习器可以很好的扩展到大量数据2.不使用特征组合,一些模型的表现度将受限制3.使用特征组合+大量数据是学习高度复杂模型的一种有效的策略。
5.降低损失:
6.优化学习速率:如果优化学习速率设置比较大,则一步就越过了梯度下降法到达最低点的点,每一步都在曲线上来回跳跃,沿着曲线向上爬,而不是降到底部
7.L1正则化:
- 稀疏性:避免了过拟合,降低内存使用
- 会对权重的L0范数进行惩罚
8.L2正则化:避免过拟合
- 降低模型的复杂度:权重的平方和
- 减少非常大的权重
- 对于线性模型:首选比较平缓的斜率
- 贝叶斯先验概率:权重应该以0为中心,权重应该呈正态分布
训练模型的优化算法是由一个俩项内容组成的函数:一个是损失项,用于衡量模型与数据的拟合度,另一个是正则化项,用于衡量模型复杂度(1.将模型复杂度作为模型中所有特征的权重的函数,将模型复杂度作为具有非零权重的特征总数的函数)
9.逻辑回归:二元分类,极其高效的Giallo计算机制(许多问题需要将概率估算值作为输出)俩种方式:“按原样”“转换成二元类别”应用领域:疾病自动诊断(探讨引发疾病的危险因素,并根据危险因素预测疾病发生的概率等),经济预测等领域
分类:评估指标:精确率和召回率
深度神经网络:自行学习,而不需要我们手动为其添加参数,使用反向传播(TensorFlow可实现)可以将非凸函数进行梯度下降。
反向传播注意事项:1.梯度很重要2.可能会消失3.可能会爆炸(学习速率很重要)4.ReLu可能会消失5.丢弃正则化
嵌入:增加维度到模型中
二分类:ROC/AUC 评价一个二值分类的优势
人脸识别系统组成:机器学习和模式识别中的分类问题
其中的算法主要包括三个模块:1.人脸检测2.人脸对齐3.人脸特征表征
10.点击率预估算法:FFM
以上是关于机器学习算法的主要内容,如果未能解决你的问题,请参考以下文章