数据库--关系数据理论

Posted hoo334

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了数据库--关系数据理论相关的知识,希望对你有一定的参考价值。

关系数据理论

  本文为复习数据库整理的资料。

  参考:

  https://blog.csdn.net/prdslf001001/article/details/80336835

  https://www.bilibili.com/video/av73467859/

  https://www.bilibili.com/video/BV1eE411a79r/

一、数据冗余导致的问题

  1)冗余存储:信息被重复存储,导致浪费大量存储空间。

  2)更新异常:当重复的信息的一个副本被修改,所有副本都必须进行同样的修改。因此当更新数据时,系统要付出很大的代价来维护数据库的完整性,否则会面临数据不一致的风险。

  3)插入异常:只有当一些信息事先已经存放在数据库中时,另外一些信息才能存入数据库中。

  4)删除异常:删除某些信息时可能丢失其他信息。

 

二、函数依赖定义

  1、函数依赖

  在关系R中,若属性或者属性集 A 中 两个元组的值相等,如果这两个元祖中对应的属性或者属性集B中的值也相同,则记作A—>B。 A函数决定B; 或者 B函数依赖于A。

技术图片

 

 

   2、平凡与非平凡函数依赖

  对于任一关系模式,平凡函数依赖都是必然成立的,它不反映新的语义。若不特别声明,总是讨论非平凡函数依赖。

技术图片

 

 

   3、完全函数依赖和部分函数依赖

  完全函数依赖:(学号,课号)——>成绩;   单独一个学号,不能决定成绩,单独一个课程,也不能决定成绩;只有二者同时,才能决定;

  部分函数依赖:(学号,课号)——>姓名;学号和课号能决定姓名, 单独一个 学号 也能决定 姓名;

技术图片

 

 

   4、传递函数依赖

  学号—>系号,系号—>系主任;       系主任   传递依赖于  学号

技术图片

 

 

 三、函数依赖理论

  1、码、超码、候选码和主码

  码是一个或多个属性的集合。

  超码是一个或多个属性的集合,超码中的这些属性可以让我们在一个实体集中唯一地标识一个实体。

  候选码是极小的超码集,也就是它的任意真子集都不是超码,而他本身是超码。

  主码是被选中用来在一个关系中区分不同元组的候选码。

  

  候选码的确定:

  设关系模式R中U=ABC.......等N个属性,U中的属性在FD中有四种范围:

  (1)左右出现;
  (2)只在左部出现;
  (3)只在右部出现;
  (4)不在左右出现;

  算法:按以下步骤求候选键:
  1.只在FD右部出现的属性,不属于候选码;
  2.只在FD左部出现的属性,一定存在于某候选码当中;
  3.外部属性一定存在于任何候选码当中;  (左右都不出现)

  4.其他属性逐个与2,3的属性组合,求属性闭包,直至X的闭包等于U,若等于U,则X为候选码。

  例1:R<U,F>,U=(A,B,C,D,E,G),F={AB-->C,CD-->E,E-->A.A-->G},求候选码以及主属性。

  因为:G只在右边出现,所以候选码肯定不包含G,BD只出现在左边,所以,候选码中肯定有BD,而BD的闭包还是BD,则对BD进行组合,除了G以外,BD可以跟A,C,E进行组合。


    先看ABD
    ABD本身自包ABD,而AB-->C,CD-->E,A-->G,所以ABD的闭包为ABDCEG=U
    再看BDC
    CD-->E,E-->A,A-->G,BDC本身自包,所以BDC的闭包为BDCEAG=U
    最后看BDE
    E-->A,A-->G,AB-->C,BDE本身自包,所以BDE的闭包为BDEAGC=U

    因为(ABD)、(BCD)、(BDE)的闭包都是ABCDEG所以本问题的候选码有3个分别是ABC、BCD和BDE

   候选码:ABC,BCD,BDE;

  主属性(主要的属性,能决定其他属性的):ABCDE;

  非主属性:G;
  

  2、Armstrong 公理系统

  设关系模式R<U,F>,其中U为属性集,F是U上的一组函数依赖,那么有如下推理规则

  ① A1自反律:若Y⊆X⊆U,则X→Y为F所蕴含;                    即:ABC→AB;   AB——>A (平凡依赖函数);
  ② A2增广律:若X→Y为F所蕴含,且Z⊆U,则XZ→YZ为F所蕴含;
  ③ A3传递律:若X→Y,Y→Z为F所蕴含,则X→Z为F所蕴含。
  根据上面三条推理规则,又可推出下面三条推理规则:
  ④ 合并规则:若X→Y,X→Z,则X→YZ为F所蕴含;
  ⑤ 伪传递规则:若X→Y,WY→Z,则XW→Z为F所蕴含;  即:A→B,AC→BC;BC→D ;得出AC→D;
  ⑥ 分解规则:若X→Y,Z⊆Y,则X→Z为F所蕴含。      即:A→BC;  能得出:  A→B,A→C;

  3、属性集闭包

  闭包就是由一个属性直接或间接推导出的所有属性的集合。

  例如:f={a->b,b->c,a->d,e->f};由a可直接得到b和d,间接得到c,则a的闭包就是{a,b,c,d};

  已知关系R(A1,A2,A3,A4,A5,A6),函数依赖集F为{ (A2,A3)——>A4,A3——>A6,(A2,A5)——>A1 }, 问(A2,A3)关于F的属性闭包为:{A2,A3,A4,A6};  因为:A2,A3能带到A4,A3能得到A6;

  已知关系R(A,B,C,D,E,F,G),函数依赖集F为{ A ——>B,B——>D,AD——>EF,AG——>C}, 问:A关于F的属性闭包为:{A,B,D,E,F};     因为:A能得到B,B能得到D,AD能得到EF;

  4、最小函数依赖集(正则覆盖)

  1、定义:
  如果函数依赖集F满足以下条件,则称F为一个极小函数依赖集。也称为最小依赖集或最小覆盖。

  (1)F中任一函数依赖的右部仅含有一个属性。

  (2)F中不存在这样的函数依赖X→A,使得F与F-{X→A}等价。

  (3)F中不存在这样的函数依赖X→A,X有真子集Z使得F-{X→A}U{Z→A}与F等价。

  2、最小依赖集通用算法:
  ① 用分解的法则,使F中的任何一个函数依赖的右部仅含有一个属性;

  ② 去掉多余的函数依赖:从第一个函数依赖X→Y开始将其从F中去掉,然后在剩下的函数依赖中求X的闭包X+,看X+是否包含Y,若是,则去掉X→Y;否则不能去掉,依次做下去。直到找不到冗余的函数依赖;

  ③ 去掉各依赖左部多余的属性。一个一个地检查函数依赖左部非单个属性的依赖。例如XY→A,若要判Y为多余的,则以X→A代替XY→A是否等价?若A属于(X)+,则Y是多余属性,可以去掉。(以上步骤中,求出关系依赖集F,此时,在F的基础上,求出X或者Y的闭包,是否包含A)

  3、最小依赖集案例:
  例1:关系模式R(U,F)中,U=ABCDEG,F={B->D,DG->C,BD->E,AG->B,ADG->BC};求F的最小函数依赖集

  步骤:

  (1)用分解的法则,使F中的任何一个函数依赖的右部仅含有一个属性;得到:F={B->D,DG->C,BD->E,AG->B,ADG->B,ADG->C};

  (2)去掉多余的函数依赖:从第一个函数依赖X→Y开始将其从F中去掉,然后在剩下的函数依赖中求X的闭包X+,依次做下去。直到找不到冗余的函数依赖;

    ① 去掉B->D,此时F={DG->C,BD->E,AG->B,ADG->B,ADG->C},此条件下得出B的闭包 B+ = B;B+不包含D,所以B->D保留。

    ②去掉DG->C,此时F={B->D,BD->E,AG->B,ADG->B,ADG->C},此时DG闭包DG+ = DG,不包含C,所以不能去掉DG->C.

    ③ 去掉BD->E,此时F={B->D,DG->C,AG->B,ADG->B,ADG->C},此时闭包BD+ = BD,不包含E,所以不能去掉BD->E,继续保留。

    ④去掉AG->B,此时F={B->D,DG->C,BD->E,ADG->B,ADG->C};此时AG+ = AG,不包含B,所以不能去掉AG->B,继续保留。

    ⑤去掉ADG->B,此时F={B->D,DG->C,BD->E,AG->B,ADG->C},此时ADG+ = ADGCBE,包含了B,所以删除ADG->B,不保留。

    ⑥去掉ADG->C,此时F={B->D,DG->C,BD->E,AG->B},此时ADG+ = ADGCBD,包含了C,所以删除ADG->C,不保留。

    综上所得,此时得到F={B->D,DG->C,BD->E,AG->B};

  (3)去掉各依赖左部多余的属性。一个一个地检查函数依赖左部非单个属性的依赖。

  此时函数依赖左边非单个属性有:DG->C,BD->E,AG->B;所以做如下操作:

    ①先来看DG->C,判断 D 是否多余,求 DG - D = G 的闭包,此时G的闭包G+ = G,不包含C,保留D。判断 G 是否多余,求 DG - G = D 的闭包,此时D+ = D,不包含C,所以G也不能去掉;

    ②再来看BD->E,判断 B 是否多余,求 BD - B = D 的闭包,此时D的闭包D+ = D,不含E,保留B。判断 D 是否多余,求 BD - D = B 的闭包,此时B+ = BDE,包含了E,所以去掉D。

    ③最后再来看 AG->B,判断 A 是否多余,求 AG - A = G 的闭包,G+ = G,不包含B,不能去掉A。判断 G 是否多余,求 AG - G = A 的闭包,A的闭包A+ =A,不含B,不能去掉G,还是AG->B ;

  所以最后得出:F的最小函数依赖集是:F={B->D,DG->C,B->E,AG->B};

 

  5、无损连接分解  

  1)判断表法

技术图片

 

 

 技术图片

 

 

 技术图片

 

 

   2)无损连接定理

  技术图片

  案例(1):关系模式R(SAIP),F={S—>A,SI—>P};  ρ={R1(SA),R2(SIP)}检测分解是否为无损连接?

  因为:R1∩R2 = S ;R1—R2 = A; R2—R1 = IP;所以得出:S —>A;或者S —>IP; 而 S —>A 在F={S—>A,SI—>P}中,所以此分解是无损连接。

  举例(2):已知R<U,F>,U={A,B,C},F={A→B},如下的两个分解:
  ① ρ1={AB,BC};

  ② ρ2={AB,AC};

  因为:AB∩BC = B;AB—BC = A;BC—AB = C;得出;B→A,或者 B→A,两个都不包含在F={A→B}中,所以 ρ1 分解是有损的。

  因为:AB∩AC = A;AB—AC = B;AC—AB = C;得出:A→B,或者A→C,而A→B包含在F={A→B}中,所以 ρ2 分解是无损的。

  6、保持依赖分解

技术图片

  案例(1):关系模式R<U, F>,U={A, B, C, D, E},F={B→A,D→A,A→E,AC→B}则分解ρ={R1(ABCE),R2(CD)}是否满足保持函数依赖。

  因为:B→A,A→E,AC→B在R1上成立,D→A在R1和R2上都不成立,因此需做进一步判断。

  由于B→A,A→E,AC→B都是被保持的(因为它们的元素都在R1中),因此我们要进一步判断的是D→A是不是也被保持。

  ①先看R1:因为:result = D;result ∩R1 = ф (空集);所以:t=ф,result=D;

  ②再看R2:因为:result = D;result ∩R2 = D;D+ = DA; D+ ∩ R2 = D; 所以:t=D,result=D;

  一个循环后result未发生变化,因此最后result=D,并未包含A,所以D→A未被保持,该分解不是保持依赖的。

 

  案例(2):关系R<U,F>,U={A,B,C,D,E},F={A→C,B→C,C→D,DE→C,CE→A},R的一个分解为R1(AD),R2(AB),R3(BE),R4(CDE),R5(AE),判断这个分解是否具有函数依赖性。

  因为:,C→D,DE→C均在R4(CDE)中被保持,而A→C,B→C,CE→A,在R1....R5上都不成立,需要进一步判断。

  (1)A→C;

  ①先看R1:因为:result = A;result ∩R1 = A ; A+ = ACD ; A+ ∩ R1 = AD;所以:t=AD,result=AD; 此时,result改变,则,进入R2;

  ②再看R2:因为:result = AD;result ∩R2 = ф,最后还是result = AD;

  ③再看R3:因为:result = AD;result ∩R3 = ф,最后还是result = AD;

  ④再看R4:因为:result = AD;result ∩R4 = D,D+ = D; D+ ∩ R4= D;最后还是result = AD;

  ⑤再看R5:因为:result = AD;result ∩R5 = A,最后还是result = AD;

 

  7、范式

  (1):1NF:每个分量都是不可再分的数据项(值、原子)。即:属性中,不能存在复合属性 或者 多值属性。

  (2):2NF:每一个非主属性 完全函数依赖 于 候选键(码)。注意:这里是码(不是主属性);即:不能存在 非主属性部分函数依赖于码。

  (3):3NF:每一个非主属性 都不传递依赖于 码。 即:不能存在非主属性对于码的传递函数依赖。

  (4):BCNF:不存在 主属性 对于 码 的 部分函数依赖 与 传递函数依赖。判断方法:箭头左边的必须是候选码(不能只是一个属性,部分码)。
  判断范式的方法:

  技术图片

 

   例1:R(A,B,C),F={A->B, B->A, A->C}

    L :No,R:C,LR:A,B

    计算A+ = ABC ,A 是候选码

    计算B+ = ABC,B 是候选码

    主属性: A,B ;非主属性: C

    1)看非主属性是否部分依赖于主属性,发现没有部分依赖。

    2)看非主属性是否传递依赖于主属性,发现 B -> A -> C ,C 传递依赖于 B,但这个传递依赖成立的条件是 A -> B 不成立,否则A -> C 推不出来。故没有部分传递依赖。

    3)看所有依赖左边是否全部为候选码,所有依赖左边依次是 A,B,A 全部为 候选码 故为 BCNF 范式。

  例2:R(A,B,C,D),F={B->D, D->B, AB->C}

    L:A, R:C,LR:B,D

    L 一定为主属性,将 L 和 LR 组合为 AB,AD

    主属性: A,B,D ;非主属性: C

    AB+ = ABCD;AD+ = ABCD;故 AB,AD为候选码。

    1)查看部分依赖。 C 完全依赖于 AB,没有部分依赖。

    2)查看传递依赖。C直接完全依赖于候选码 AB,没有传递依赖。

    3)查看是否全为候选码。所有依赖左边依次是 B,D,AB ,B,D不为 候选码 故为 3NF 范式。

 

  8、模式分解

  3NF 分解:

  计算最小函数依赖

  将最小函数依赖依次分解,得到 3NF 保持函数依赖分解。

  将保持依赖分解添加一个候选码到结果中,得到 3NF 无损连接分解。

  

  BCNF 分解:

  R(A,B,C,D),F={A->B,C->D}一直找不是候选码的函数依赖项 A->B,将依赖集分解为两部分:

  1)AB

  2)ACD (B 可由A 推出)

  继续分解 ACD。

  

  例: R(A,B,C,D,E,F),F={AE->F,A->B, BC->D, CD->A, CE->F}

  L:C,E

  R:F

  LR:A,B,D

  L 一定为主属性,将 L 和 LR 组合为 ACE,BCE,CDE。

  主属性: A,B,D ;非主属性: C

  ACE+ = ABCDEF;BCE+ = ABCDEF;CDE+ = ABCDEF;故ACE,BCE,CDE为候选码。

 

 

  将上面的函数依赖依次分解得到:AEF,AB,BCD,CDA,CEF。

  得到 3NF 保持函数依赖分解 : AEF,AB,BCD,CDA,CEF

  任意添加一个候选码进去(这里选 ACE)。

  得到 3NF 无损连接依赖分解 : AEF,AB,BCD,CDA,CEF,ACE

 

  AEF,AB,BCD,CDA,CEF 全部都不是候选码

  第一次分解 AE->F:

  AEF, 剩下 R=(ABCDE),F={A->B, BC->D, CD->A} (F可以被导出)

  第二次分解 A->B:

  AB,剩下 R=(ACDE), F={CD->A} (B可以被导出,B 已经不在 R 中了 BC-> D 也就删除了

  第三次分解 CD->A:

  CDA,剩下 R=(CDE), F={} (A可以被导出)

  CDE为候选码分解停止。

  故 BCNF 分解为 AEF,AB,CDA,CDE

  

  

以上是关于数据库--关系数据理论的主要内容,如果未能解决你的问题,请参考以下文章

数据库--关系数据理论

关系数据理论

关系模式设计理论 - 数据库系统原理

:关系数据理论

mysql系列之一关系型数据库基础理论

第6章:关系数据库理论(考研重点)