山东大学软件学院数据仓库数据挖掘期末复习

Posted 2021-07-11 在山大上大分

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了山东大学软件学院数据仓库数据挖掘期末复习相关的知识，希望对你有一定的参考价值。

文章目录

**数据仓库复习用：

前五个在文档中

6、数据预处理的主要任务有哪些？每个任务要解决的问题主要有哪些？

	**数据预处理的主要任务**
    数据预处理的主要步骤：
    1.数据清理
    2.数据集成
    3.数据规约
    4.数据变换。

    数据清理通过填写缺失的值，光滑噪声数据，识别或删除离群点，并解决不一致来“清理”数据。

    数据集成涉及集成多个数据库、数据立方体或文件。代表同一概念的属性在不同的数据库中可能具有不同的名字，这又导致不一致性和冗余。有些属性可能是由其它属性导出的（例如，年收入）。除数据清理之外，必须采取步骤，避免数据集成时的冗余。通常，在为数据仓库准备数据时，数据清理和集成将作为预处理步骤进行。还可以再次进行数据清理，检测和删去可能由集成导致的冗余。

    数据归约得到数据集的简化表示，它小得多，但能够产生同样的（或几乎同样的）分析结果。数据规约策略包括维归约和数值规约。

    ** 在维规约中，使用数据编码方案，以便得到原始数据的简化或“压缩”表示。例子包括数据压缩技术（例如，小波变换和主成分分析），以及属性子集选择（例如，去掉不相关的属性）和属性构造（例如，从原来的属性集导出更有用的小属性集）。
    **在数值规约中，使用参数模型（例如，回归和对数线性模型）或非参数模型（例如，直方图、聚类、抽样或数据聚集），用较小的表示取代数据。

    回到你的数据，假设你决定使用诸如神经网络、最近邻分类或聚类这样的基于距离的挖掘算法进行你的分析。如果待分析的数据已经规范化，即按比例映射到一个较小的区间（例如，[0.0，1.0]），则这些方法将得到更好的结果。离散化和概念分层产生也可能是有用的，那里属性的原始值被区间或较高层的概念所取代。例如，年龄的原始值可以用较高层的概念（如青年、中年和老年）取代。对于数据挖掘而言，离散化和概念分层产生是强有力的工具，因为它们使得数据的挖掘可以在多个抽象层上进行。规范化、数据离散化和概念分层产生都是某种形式的数据变换。数据变换操作是引导挖掘过程成功的附加的预处理过程。
    上面的分类不是互斥的。例如，冗余数据的删除既是一种数据清理形式，也是一种数据规约形式。

数据预处理形式
数据预处理技术可以改进数据的质量，从而有助于提高其后的挖掘过程的准确率和效率。
老师屁屁踢：在这里插入图片描述

7 、脏数据主要有哪几种？产生的主要原因是什么？

在这里插入图片描述

8、缺失值的处理方法有哪些？

  （1）忽略元组：当类标号缺少时通常这样做（假定挖掘任务涉及分类）。除非元组有多个属性缺少值，否则该方法不是很有效。当每个属性缺失值的百分比变化很大时，它的性能特别差。

  （2）人工填写缺失值：一般地说，该方法很费时，并且当数据集很大、缺少很多值时，该方法可能行不通。

  （3）使用一个全局常量填充缺失值：将缺失的属性值用同一个常量（如“Unknown”或 –¥）替换。如果缺失的值都用“Unknown”替换，则挖掘程序可能误以为它们形成了一个有趣的概念，因为它们都具有相同的值——“Unknown”。因此，尽管该方法简单，但是并不十分可靠。

  （4）使用属性的中心度量（如均值或中位数）填充缺失值：对于正常的（对称的）数据分布而言，可以使用均值，而倾斜数据分布应该使用中位数。例如，假定AllElectronics的顾客的平均收入为$28,000，则使用该值替换income中的缺失值。

  （5）使用与给定元组属同一类的所有样本的属性均值或中位数：例如，如果将顾客按credit_risk分类，则用具有相同信用风险的顾客的平均收入替换income中的缺失值。如果给定类的数据分布是倾斜的，则中位数是更好的选择。

  （6）使用最可能的值填充缺失值：可以用回归、使用贝叶斯形式化方法的基于推理的工具或决策树归纳确定。例如，利用数据集中其他顾客的属性，可以构造一棵判定树，来预测income的缺失值。

    方法（3）到（6）使数据有偏，填入的值可能不正确。然而，方法（6）是最流行的策略。与其它方法相比，它使用已有数据的大部分信息来推测缺失值。在估计income的缺失值时，通过考虑其它属性的值，有更大的机会保持income和其它属性之间的联系。

    在某些情况下，缺失值并不意味着有错误。理想情况下，每个属性都应当有一个或多个关于空值条件的规则。这些规则可以说明是否允许空值，并且/或者说明这样的空值应当如何处理或转换。
    老师屁屁踢：

在这里插入图片描述

9 、什么是噪音数据？产生的原因有哪些？

老师屁屁踢：
在这里插入图片描述

10、噪声数据的检测和处理方法有哪些？

在这里插入图片描述

分箱：分箱方法通过考察数据的“近邻”（即，周围的值）来光滑有序数据值。这些有序的值被分布到一些“桶”或箱中。由于分箱方法考察近邻的值，因此它进行局部光滑。

    用箱均值光滑：箱中每一个值被箱中的平均值替换。

    用箱中位数平滑：箱中的每一个值被箱中的中位数替换。

    用箱边界平滑：箱中的最大和最小值同样被视为边界。箱中的每一个值被最近的边界值替换。

    一般而言，宽度越大，光滑效果越明显。箱也可以是等宽的，其中每个箱值的区间范围是个常量。分箱也可以作为一种离散化技术使用，

回归：也可以用一个函数拟合数据来光滑数据。线性回归涉及找出拟合两个属性（或变量）的“最佳”直线，使得一个属性能够预测另一个。多线性回归是线性回归的扩展，它涉及多于两个属性，并且数据拟合到一个多维面。使用回归，找出适合数据的数学方程式，能够帮助消除噪声。

离群点分析：可以通过如聚类来检测离群点。聚类将类似的值组织成群或“簇”。直观地，落在簇集合之外的值被视为离群点。
在这里插入图片描述
可以将离群点看作落在簇集合之外的值来检测

许多数据光滑的方法也用于数据离散化（一种数据变换方式）和数据归约。例如，上面介绍的分箱技术减少了每个属性的不同值的数量。对于基于逻辑的数据挖掘方法（决策树归纳），这充当了一种形式的数据归约。概念分层是一种数据离散化形式，也可以用于数据平滑。例如，price的概念分层可以把实际的price的值映射到inexpensive、moderately_priced和expensive，从而减少了挖掘过程需要处理的值的数量。

11、什么叫数据集成？数据集成解决的主要问题有哪些？

数据集成：合并多个数据源中的数据，存入一个一致的数据存储中
在这里插入图片描述

实体识别问题
模式集成和对象匹配可能需要技巧。来自多个信息源的现实世界的等价实体如何才能“匹配”？这涉及实体识别问题。例如，数据分析者或计算机如何才能确信一个数据库中的customer_id和另一个数据库中的cust_number指的是同一实体？每个属性的元数据包括名字、含义、数据类型和属性的允许取值范围，以及处理空白、零或NULL值的空值规则。通常，数据库和数据仓库有元数据——关于数据的数据。这种元数据可以帮助避免模式集成的错误。元数据还可以用来帮助变换数据。

在集成期间，当一个数据库的属性与另一个数据库的属性匹配时，必须特别注意数据的结构。这旨在确保源系统中的函数依赖和参照约束与目标系统中的匹配。

冗余和相关分析
冗余是数据集成的另一个重要问题。一个属性（例如，年收入）如果它能由另一个或另一组属性“导出”，则这个属性可能是冗余的。属性或维命名的不一致也可能导致数据集中的冗余。

有些冗余可以被相关分析检测到。例如，给定两个属性，根据可用的数据，这种分析可以度量一个属性能在多大程度上蕴涵另一个。对于标称数据，我们使用卡方检验。对于数值属性，我们使用相关系数和协方差，它们都评估一个属性的值如何随另一个变化。

元组重复
除了检测属性间的冗余外，还应当在元组级检测重复（例如，对于给定的唯一数据实体，存在两个或多个相同的元组）。

数据值冲突的检测与处理
数据集成还涉及数据值冲突的检测与处理。例如，对于现实世界的同一实体，来自不同数据源的属性值可能不同。这可能是因为表示、尺度或编码不同。例如，重量属性可能在一个系统中以公制单位存放，而在另一个系统中以英制单位存放。

属性也可能在不同的抽象层，其中属性在一个系统中记录的抽象层可能比另一个系统中“相同的“属性低。

12 、什么叫数据归约？主要有哪几类归约问题？

数据规约策略包括维归约、数量规约和数据压缩
在这里插入图片描述

13、维度归约有哪两类技术？有什么区别？
在这里插入图片描述

14 、什么是数据离散化和概念分层？

在这里插入图片描述

15、数据规范化/标准化的方法有哪些？形式，有什么作用？

在这里插入图片描述
在我们的讨论中，令A是数值属性，具有n个观测值v1，v2，…，vn。

    最小-最大规范化对原始数据进行线性变换。假定和分别为属性A的最小和最大值。最小-最大规范化通过计算把A的值vi映射到区间[,]中的vi’。

在这里插入图片描述

    最小-最大规范化保持原始数据值之间的联系。如果今后的输入实例落在A的原数据值域之外，则该方法将面临“越界”错误。

    在z分数规范化（或零-均值规范化）中，基于A的平均值和标准差规范化。A的值vi被规范化为vi’，由下式计算：

在这里插入图片描述

    当属性A的实际最大和最小值未知，或离群点左右了最小-最大规范化时，该方法是有用的。

    小数定标规范化通过移动属性A的值的小数点位置进行规范化。小数点的移动位数依赖于A的最大绝对值。A的值vi被规范化为vi’，由下式计算：

在这里插入图片描述

其中，j是使得Max(|v’|) < 1的最小整数。
在这里插入图片描述

16 、数据仓库的主要特征是什么，对每一特征给予简要解释

在这里插入图片描述

17、数据仓库的作用

数据仓库提供用户用于决策支持的当前和历史数据，这些数据在传统的操作型数据库中很难或不能得到。所做的一切都是为了让用户更快更方便查询所需要的信息，提供决策支持

18 、典型的数据仓库体系结构，各层简要说明

在这里插入图片描述

19、数据库与数据仓库系统在设计上的差别

在这里插入图片描述

20、数据仓库设计的过程有哪些

在这里插入图片描述

21、模型设计（概念——逻辑；星型模型；粒度选择）

看屁屁踢
在这里插入图片描述

22、ETL的内容

在这里插入图片描述
ETL是数据从业务系统抽取转化到数据仓库的过程，包括4个子过程：数据抽取、数据转换、数据清洗、数据装载

作用：解决数据分散问题、解决数据不清洁问题、方便企业各部门构筑数据集市
在这里插入图片描述

23、写出至少五种OLAP的操作，并说明每种的具体内容

在这里插入图片描述

上卷 (drill-up，roll up): 概括数据
通过沿一个维的概念分层向上攀升或者通过维归约，对数据立方进行聚集
下钻 (Drill down ，roll down): 上卷的逆操作
从高层概括到底层概括，从不太详细到更加详细的数据
给数据添加更多细节，添加新的维到立方体来实现
在这里插入图片描述

**切片和切块（Slice and dice）😗*投影和选择：在多维数据结构中,按二维进行切片,按三维进行切块,可得到所需要的数据。如在“城市、产品、时间”三维立方体中进行切块和切片,可得到各城市、各产品的销售情况
在这里插入图片描述

转轴或旋转（Pivot or rotate):
转换立方体的视角, 可视化, 从3D 到 2D 平面序列
在这里插入图片描述

 其他操作

钻过（drill across）: 涉及多个事实表的查询
钻透（drill through）: 钻透立方体的底层，到后端关系表 (using SQL)

24 、MOLAP和ROLAP的体系结构，工作原理

在这里插入图片描述

25 、什么叫数据立方体的预计算？为什么要进行预决算？面临的问题有哪些？有哪些策略？

在这里插入图片描述

多维分析中需要对具有不同综合程度的数据进行查询，因而需要对细节数据进行综合。
综合的过程称为预计算。

在这里插入图片描述

26、完整数据立方体的预计算方法

完全立方体计算的多路数组聚集方法是怎么进行操作的

答：多路数组聚集方法使用多维数组作为基本数据结构，计算完全数据立方体。它是一种使用数组直接寻址的典型MOLAP方法，其中维值通过位置或对应数组位置的下标访问。这种方法的具体操作如下所示：1、将数组分块，保证每个块的计算可以在可用内存的约束范围内完成，并将计算的值保存在数组中；2、通过访问立方体单元计算聚集。这种方法的可行之处在于可以通过规划的方法做聚集的并行处理同时下层的聚集值只要达成条件可以自发向上聚集，这是规模化处置很有效的方法。

虽然这种方法可以处理完全立方体的计算，但是这种计算量会随着完全立方体的维数做指数级增长，所以这种方法仅适合维数比较小的完全立方体进行计算。多路数组聚集方法是从下向上进行计算的。