聊一聊粗糙集

Posted gedanke

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了聊一聊粗糙集相关的知识,希望对你有一定的参考价值。

本节我们将继续介绍粗糙集有关的概念。


本节将介绍经典粗糙集中粒度的度量相关概念。
我们依旧使用这个决策信息系统为例。

(U) (a) (b) (c) (e) (f) (d)
1 0 1 1 1 0 1
2 1 1 0 1 0 1
3 1 0 0 0 1 0
4 1 1 0 1 0 1
5 1 0 0 0 1 0
6 0 1 1 1 1 0
7 0 1 1 1 1 0
8 1 0 0 1 0 1
9 1 0 0 1 0 0


知识粒度

知识粒度定义如下:
给定一个决策信息系统(S=(U,A=C igcup D,V,f))(U)为论域,若(B subseteq C)(U/B={X_{1},X_{2},...,X_{m}}),共有(m)个等价类,则(B)的知识粒度(GP_{U}(B))为:
[ GP_{U}(B)=sum_{i=1}^{m} frac{|X_{i}|^2}{|U|^2} ]
在粗糙集中,等价类的粒度越细,其划分能力就越强,近似集越精确;否则划分能力就弱,近似集越粗糙。
其中,(frac{1}{|U|} leq GP_{U}(B) leq 1)。当(U/B={X_{1},X_{2},...,X_{|U|} })(|U|)(U)元素的个数,此时知识粒度最小(frac{1}{|U|}),划分能力最强;当 (U/B={U}),此时知识粒度最大(1),划分能力最弱。

例如,在上表中:
[ U/C={{1},{2,4},{3,5},{6,7},{8,9}} ]
(C)的知识粒度为:
[ GP_{U}(C)=sum_{i=1}^{5}frac{|X_{i}|^2}{|U|^2} ]

[ = frac{1^2+2^2+2^2+2^2+2^2}{9^2} ]

[ = frac{17}{81} ]

相对知识粒度的定义如下:
给定一个决策信息系统(S=(U,A=C igcup D,V,f))(U)为论域,若(P,Q subseteq A)(U/P={X_{1},X_{2},...,X_{m} })(U/Q={Y_{1},Y_{2},...,Y_{n} })。则(Q)关于(P)的相对知识粒度为
[ GP_{U}(Q mid P)=GP_{U}(P)-GP_{U}(P igcup Q) ]

例如,在上表中,考虑条件属性集(C),决策属性集(D),有
[ U/C={{1},{2,4},{3,5},{6,7},{8,9} } ]

[ U/C igcup D={{1},{2,4},{3,5},{6,7},{8},{9} } ]
(D)关于(C)的相对知识粒度为
[ GP_{U}(D mid C)=GP_{U}(C)-GP_{U}(C igcup D)= ]

[ =frac{17}{81}-frac{15}{81}=frac{2}{81} ]

(GP_{U}(Q mid P))表示(Q)相对于(P)的分类能力。(GP_{U}(Q mid P))值越大,表示(Q)相对于(P)对论域(U)分类能力越强;反之,分类能力越弱。


属性重要度

内部属性重要度定义如下:
给定一个决策信息系统(S=(U,A=C igcup D,V,f))(U)为论域,(B subseteq C),若(forall a in B)
则属性(a)关于条件属性集(B)相对于决策属性集(D)的内部属性重要度为:
[ Sig_{U}^{inner}(a,B,D)=GP_{U}(D mid B-{a})-GP_{U}(D mid B) ]
以上表为例,考虑属性(a)关于条件属性集(C)相对于决策属性集(D)的内部属性重要度:
[ Sig_{U}^{inner}(a,C,D)=GP_{U}(D mid C-{a})-GP_{U}(D mid C) ]

[ ={ GP_{U}(C-{a})-GP_{U}((C-{a}) igcup D) }-{GP_{U}(C)-GP_{U}(C igcup D)} ]
考虑(C-{a})({C-{a}} igcup D)

[ U/(C-{a})={{1},{2,4},{3,5},{6,7},{8,9} } ]

[ U/({C-{a}} igcup D)={{1},{2,4},{3,5},{6,7},{8},{9} } ]
所以
[ Sig_{U}^{inner}(a,C,D)={ frac{17}{81}-frac{15}{81}} - {frac{17}{81}-frac{15}{81} }=0 ]

外部属性重要度定义如下:
给定一个决策信息系统(S=(U,A=Cigcup D,V,f))(U)为论域,(B subseteq C),若(forall a in (C-B))
则属性(a)关于条件属性集(B)相对于决策属性集(D)的内部属性重要度为:
[ Sig_{U}^{outer}(a,B,D)=GP_{U}(D mid B)-GP_{U}(D mid B igcup {a}) ]
还是以上表为例,若(B={c,e,f}),考虑属性(a)关于条件属性集(B)相对于决策属性集(D)的内部属性重要度:
[ Sig_{U}^{outer}(a,B,D)=GP_{U}(D mid B)-GP_{U}(D mid B igcup {a}) ]

[ ={ GP_{U}(B)-GP_{U}(Bigcup D)} - { GP_{U}(B igcup {a})-GP_{U}((Bigcup {a}) igcup D) } ]
考虑(B)(Bigcup D)(B igcup {a})((Bigcup {a}) igcup D)
[ U/B={{1},{2,4,8,9},{3,5},{6,7}} ]

[ U/(Bigcup D)={{1},{2,4,8},{9},{3,5},{6,7} } ]

[ U/(B igcup {a})={{1},{2,4,8,9},{3,5},{6,7}} ]

[ U/((Bigcup {a}) igcup D)={{1},{2,4,8},{9},{3,5},{6,7} } ]

所以
[ Sig_{U}^{outer}(a,B,D)={ frac{17}{81}-frac{15}{81}} - {frac{17}{81}-frac{15}{81} }=0 ]



必要属性定义如下:
给定一个决策信息系统(S=(U,A=C igcup D,V,f))(U)为论域,如果$Sig_{U}^{inner}(a,C,D)>0 (,则称属性)a(是决策信息系统条件属性集)C(相对于决策属性集)D$的必要属性。

特别地,(S)的核属性被定义为
[ Core_{C}(D)={a in C mid Sig_{U}^{inner}(a,B,D)>0 } ]

显然,属性(a)不是核属性。


本文参考了:

  • 景运革. 基于知识粒度的动态属性约简算法研究[D].西南交通大学,2017.

以上是关于聊一聊粗糙集的主要内容,如果未能解决你的问题,请参考以下文章

聊一聊粗糙集

聊一聊粗糙集

SQL开发实战技巧系列(二十二):数仓报表场景☞ 从分析函数效率一定快吗聊一聊结果集分页和隔行抽样实现方式

南京TSMC 16nm量产出货,聊一聊TSMC的崛起之路

聊一聊MR过程

聊一聊hadoop小文件合并成大文件