2019-03-07

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了2019-03-07相关的知识,希望对你有一定的参考价值。

参考技术A 特征选择的原因: 1)属性过多易造成维数灾难,仅选择重要特征构建模型则能减轻该问题;2)去除不相关特征能降低学习任务的难度。

冗余特征:所包含的信息能从其他特征中推演出来。eg已知立方体底面长和宽,则底面积是冗余特征,但作为学习任务“中间概念”时能加速运算,例如计算立方体体积,知道底面积能加速运算。

欲从初始特征集合中选取一个包含所有重要信息的特征子集,一般包含两个环节: 子集搜索 与 子集评价 。

1.子集搜索一般分为前向搜索、后向搜索和双向搜索 。

前向搜索 :给定特征集合 ,将每个特征看做一个候选子集,对这d个候选单特征子集进行评价,假定 最优,将 作为第一轮的选定集;然后,在上一轮的选定集中加入一个特征,构成包含两个特征的候选子集,假定在这d-1候选子集中 最优,且优于 ,将 做为本轮的选定集,假定在低k+1轮时,最优的候选(k+1)特征子集不如上一轮的选定集,停止。

后向搜索 :类似前向搜索,但从完整的特征集合开始,每次尝试去掉一个无关特征,逐渐减少特征的过程。

双向搜索 :将前向与后向搜索结合起来,每一轮逐渐增加选定相关特征(这些特征在后续轮中将确定不会被去除)、同时减少无关特征。

显然上述策略都是贪心的,因为仅考虑了使本轮选定集最优。

2.子集评价

特征子集A实际上确定了对数据集D的一个划分,这个划分与真实划分的差异越小,说明A越好。可通过信息熵判断这个差异。

给定数据集D,假定D中第i类样本所占的比例为 。对于属性子集A,假定根据其取值将D分成了V个子集 ,每个子集的样本在A上取值相同,于是我们可计算属性子集A的信息增益: 信息增益越大,则特征子集包含的有助于分类的信息越多。

过滤式方法先对数据集进行特征选择,然后再训练学习器,特征选择与训练学习器过程无关。

Relief是一种著名的过滤式特征选择方法,它设计了一个“相关统计量”来度量特征重要性。对每个示例 ,relief先在其同类样本中找最近邻 (猜中近邻),再从其异类样本中找最近邻 (猜错近邻),则相关统计量对应属性j的分量为:

最后对基于不同样本的估计结果进行平均,得到各属性的相关统计量分量,分量值越大,对应属性的分类能力越强。多分类Relief相较二分类有多个猜错近邻,计算公式为:

Relief只需在数据集的采样上而不必在整个数据集上估计相关统计量,是一种高效的过滤式特征选择方法。

包裹式选择的目的是为给定学习器选择最有利于其性能、“量身定做”的特征子集。代表算法LVW是在拉斯维加斯方法框架下使用随机策略进行子集搜索,并以最终分类器的误差为特征子集评价准则。

嵌入式特征选择是将特征选择过程与学习器训练过程融为一体,在学习器训练过程中自动进行特征选择。例如对线性回归模型的优化目标函数添加L1正则项:

LASSO:               

L1正则化有助于防止过拟合,常见的L2正则化也可实现这一目的:

岭回归:              

L1范数会趋向产生少量的特征(稀疏解),其求得的w会有更少的非零分量;L2会选择更多的特征,这些特征的权值都会接近于0。因此L1范数在特征选择上就十分有用,而L2范数则具备较强的控制过拟合能力。可以从下面两个方面来理解:

(1) 下降速度 :L1范数按照绝对值函数来下降,L2范数按照二次函数来下降。因此在0附近,L1范数的下降速度大于L2范数,故L1范数能很快地下降到0,而L2范数在0附近的下降速度非常慢,因此较大可能收敛在0的附近。

2) 空间限制 :L1范数与L2范数都试图在最小化损失函数的同时,让权值W也尽可能地小。假定x仅有两个属性,于是无论岭回归还是LASSO接触的w都只有两个分量,即w1,w2,我们将其作为两个坐标轴,然后在图中绘制出两个式子的第一项的”等值线”。

将数据集D看成一个矩阵,每行对应于一个样本,每列对应一个特征,考虑特征具有稀疏性,则通过特征选择去除这些列,就得到了一个稀疏矩阵;数据的另一种稀疏性是指D中存在很多0元素,且并不是以整行整列的形式存在。

当样本具有这样的稀疏表达形式时,对学习任务有不少好处,例如使大多数问题线性可分,且不会造成存储上的巨大负担。

字典学习(稀疏编码) :为普通稠密表达的样本找到合适的字典,将样本转化为合适的稀疏表达形式从而使学习任务得以简化,模型复杂度得以降低。

采用变量交替优化的策略求解上式:1)确定映射字典的词汇量 k,并初始化字典 B,d*k,其中 d 为样本属性数;2)固定住字典 B,求得样本集 X 通过字典映射后的稀疏表示 ;3)固定住  来更新字典 B;4)反复第2)、3)步,最终可得合适的字典 B 和样本 X 的稀疏表示 。

不同于特征选择和稀疏表示,压缩感知关注的是如何利用信号本身所具有的稀疏性,从部分观测样本中恢复原信号。能通过压缩感知技术恢复欠采样信号的前提之一是信号有稀疏表示。压缩感知一般分为“感知测量”和“重构恢复”两个阶段。 感知测量 关注如何对原始信号进行处理以获得稀疏样本表示,eg傅里叶变换、小波变换、字典学习、稀疏编码等; 重构恢复 关注如何基于稀疏性从少量观测中恢复原信号。

https://blog.csdn.net/u011826404/article/details/72860607

以上是关于2019-03-07的主要内容,如果未能解决你的问题,请参考以下文章

Calcite分析 - Rule

Tomcat JSP

frida 使用

无法成功准备 iOS

线上一个数组查询遇到的坑

Python模块之netmiko