个人对粗糙集的一些理解和简单举例

Posted 2023-01-21 MelodyYN

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了个人对粗糙集的一些理解和简单举例相关的知识，希望对你有一定的参考价值。

文章目录

1、数据价值密度低的解决方案
2、粗糙集的简介--->原理
3、粗糙集的主要研究方向

大数据很重要，但是存在体量大、价值密度低的问题，我们该怎么解决

1、数据价值密度低的解决方案

在所有这些场景中，我们需要将信息缩减到可管理的大小。特征选择是一个过程，可用于选择一组精简的特征，这些特征仍能提供足够的有用信息。这个过程通常是通过删除冗余和不必要的功能来完成的。如果一个特征提供的信息与同一数据集中另一个特征提供的信息相同，则该特征将是冗余的。如果一个特性不能给所需的信息增加任何价值，那么它就是不必要的。

然后，所选择的特征集可以用于进一步的处理，例如，聚类、分类、规则提取，特征的减少可以显著提高这些处理系统的整体性能，例如，考虑具有一千个特征的分类场景，并将其与只有一百个特征的情况进行比较。显然，在考虑所有其他条件相同的情况下，后一种情况花费的时间要少得多。

1.1 粗糙集中对应的概念：属性约简

由于粗糙集概念有些抽象，我们先来看下粗糙集能够达成什么样的效果，让大家能够直观感受粗糙集。

属性约减又叫降维，指在保留知识分类或决策效果几乎不发生变化的前提下，从中删掉冗余信息，它可以有效删除不必要属性，提高决策效率。

1、线性降维方法：主成分分析（PCA）、独立成分分析（ICA）

和线性判别分析（LDA）

2、非线性降维方法：

（1）基于核函数的非线性降维方法：KPCA 、KICA

（2）基于特征值的非线性降维方法

约简前聚类效果和约简后的聚类效果对比，可以检验约简的效果如何。假如约简前是上图，约简后三种形状和颜色的点混合在一起，则说明约简效果很差。

1.2 属性约简的好处

去除冗余特征，减少所需的存储空间
加快计算速度，更少的维数意味着更少的计算，更少的维数可以允许使用不适合大量维数的算法
太多的特征或太复杂的模型可能导致过拟合

1.3 粗糙集的应用

数据预处理阶段：保证后续效率。神经网络训练模型是一个迭代过程，期间会消耗大量的时间。因此，在进入网络前对数据进行约简是非常有意义的，可以大大提升其效率，训练出的模型也会更好。

以阿尔法狗围棋为例对过拟合的再解释：假设AlphaGo和10位选手的10000场下棋结果进行训练，最后得到一个模型。AlphaGo和这10位围棋大师下棋，总能胜利。但是，此时有一位新的围棋高手，AlphaGo没有与之交过手，然后输了。这种情况不是偶然，经常出现，则说明模型过拟合了。真正拟合的模型对新到达的数据依然能够给出正确的决策。