DBMS提纲
Posted AI浩
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了DBMS提纲相关的知识,希望对你有一定的参考价值。
一、名词解释:
1. 粒度:对数据仓库中的数据的综合程度高低的一个度量
2. 分割:将数据分散到各自的物理单元中去以便能分别独立处理
3. 数据分片 :指按照某个维度将存放在单一数据库中的数据分散地存放至多个数据库或表中以达到提升性能瓶颈以及可用性的效果
4. 水平分片:按照一定条件进行分片,比如时间段、区域、人群
5. 垂直分片:按照字段分片,比如热点数据单独成库
6. 导出分片:一个关系的分片不是基于关系本身的属性,而是根据另一个与其有关联的关系的属性来划分
7. 混合分片:混合就是先水平分然后再垂直分,或者先垂直再水平
8. 数据分割: 数据分割是指把逻辑上是统一整体的数据分割成较小的、可以独立管理的物理单元进行存储
9. 多重粒度 : 它可以定义为将数据库分层分解为可以锁定的块
10. 操作型处理 : 增删改查、聚焦近期数据
11. 分析型处理:查、聚焦历史数据
12. OLTP:事务型数据库
13. OLAP:在线分析、检索型数据库
14. 联机分析处理:在线的分析、检索数据库
15. 联机事务处理:在线的关系型数据库
1. 主题:主题是一个抽象的概念,是指用户使用数据仓库进行决策时所关心的重点方面,一个主题通常与多个操作型信息系统相关。而操作型数据库的数据组织面向事务处理任务,各个业务系统之间各自分离。
2. 面向主题:围绕主题进行数据仓库的搭建
3. 主题域:联系较为紧密的数据主题的集合
4. 主题之间的重叠:细节上的重叠;不一定是两两重叠
5. ROLAP: 是指关系数据的关系在线分析处理
6. MOLAP:被称为多维在线分析处理,它通过多个数据维度来实现
7. HOLAP:被称为混合在线分析处理,适用于 ROLAP 和 MOLAP 概念
8. ETL工具P:是英文Extract-Transform-Load的缩写,用来描述将数据从来源端经过抽取(extract)、转换(transform)、加载(load)至目的端的过程。ETL一词较常用在数据仓库,但其对象并不限于数据仓库。
9. 数据抽取:数据的抽取是从各个不同的数据源抽取到ODS(Operational Data Store,操作型数据存储)中——这个过程也可以做一些数据的清洗和转换),在抽取的过程中需要挑选不同的抽取方法,尽可能的提高ETL的运行效率。ETL三个部分中,花费时间最长的是“T”(Transform,清洗、转换)的部分,一般情况下这部分工作量是整个ETL的2/3。数据的加载一般在数据清洗完了之后直接写入DW(Data Warehousing,数据仓库)中去。
10. 数据清洗:数据清洗的任务是过滤那些不符合要求的数据,将过滤的结果交给业务主管部门,确认是否过滤掉还是由业务单位修正之后再进行抽取。
11. 数据转换:数据转换的任务主要进行不一致的数据转换、数据粒度的转换,以及一些商务规则的计算。
12. 数据加载:数据的加载是ETL的最后一个阶段,它的主要任务是将数据从临时数据表或文件中加载到指定的数据仓库中
13. 数据仓库服务器 :数据仓库,英文名称为Data Warehouse,可简写为DW或DWH。数据仓库,是为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合。它是单个数据存储,出于分析性报告和决策支持目的而创建。 为需要业务智能的企业,提供指导业务流程改进、监视时间、成本、质量以及控制。
14. 数据仓库的前台工具
15. 数据仓库的后台工具:包括数据抽取、清洗、转换、装载和维护工具
1. 维:维是人们观察数据的特定角度,是某个事物的属性。例如,在分析产品销售数据时,涉及到时间、产品、地区。
2. 维成员:维由一些维成员构成。维的一个取值称为维的一个成员,每个成员有一个名字,还可以有若干的属性来描述成员的特征
3. 维层:人们观察数据时,除了要从某一个角度去观察外,还需要从不同的细节程度去观察。称这些不同的细节程度为不同的维层。
4. 维层次:维层是一种分类方法。在一个维中可以有多种分类方法,每种分类方法叫做一个层次
例如
■时间维,除了可以按年、季度、月、日分层外,还可以按年、星期、日分层,因此有两个层次。
■对于产品,客户分析员喜欢按产品、类型、种类来分析,股票分析员喜欢按产品、制造商、母公司来分析。为了满足分析的需要,产品维需要设置两个层次。
5. 维属性:维属性说明维成员所具有的特征
6. 度量:要分析的目标或对象
7. 输入度量:业务处理活动中获取
8. 导出度量:需要经过计算得到
9. 可累计型度量:能沿时间维做聚集运算
10. 不可累计型度量:不能沿时间维做聚集运算
11. 旋转操作:执行可以通过旋转多维数据集的数据轴来获得新数据视图的分析
12. 切片操作 :实质上对应于where/having 子句
13. 切块操作:实质上对应于where/having 子句
14. 上卷操作(roll-up)
15. 下钻操作(drill-down):取操作就是在不同粒度表之间的切换
1. 数据仓库 :
定义一:数据仓库是作为DSS服务基础的分析型DB,用来存放大容量的只读数据,为制定决策提供所需的信息
定义二:数据仓库是与操作型系统相分离的、基于标准企业模型集成的、带有时间属性的(即与企业定义的时间区段相关)、面向主题及不可更新的数据集合。
2. 数据集市:数据集市(Data Mart),也叫数据市场,数据集市就是满足特定的部门或者用户的需求,按照多维的方式进行存储,包括定义维度、需要计算的指标、维度的层次等,生成面向决策分析需求的数据立方体。
3. 操作型数据存储:与业务活动关联
4. ODS:操作数据库
5. 多层ODS
6. 企业级OLTP
7. 企业级联机事务处理
8. 分析型OLTP
9. 分析型联机事务处理
10. 全局OLTP
11. 全局联机事务处理
12. 即时OLAP
13. 即时联机分析处理
14. 实时OLAP
15. 实时联机分析处理
-
多维数据模型
-
星形模型:是最常用的数据仓库设计结构的实现模式。使数据仓库形成了一个集成系统,为用户提供分析服务对象。核心是事实表,围绕事实表的是维度表。通过事实表将各种不同的维度表连接起来,各个维度表都连接到中央事实表
-
雪片模型:是对星型模型的扩展,每一个维度都可以向外连接到多个详细类别表。雪花模型对星型模型的维度表进一步标准化,对星型模型中的维度表进行了规范化处理。
-
雪花模型:当有一个或多个维表没有直接连接到事实表上,而是通过其他维度表连接到事实表上时,其图解就像多个雪花连接在一起,故称雪花模型。
-
事实群模型
-
聚集
-
分布型聚集函数
-
代数型聚集函数
-
整体型聚集函数
-
多维分析操作
-
切片:在多维数组的某一维选定一个维成员的动作。
-
切块:在多维数组的某一维上选定某一区间的维成员的动作。
旋转:改变一个报告或页面显示的维方向,以用户容易理解的角度来观察数据 -
上卷:指沿某一个维的概念分层向上归约。
-
下钻:是上卷的逆向操作,它是沿某一个维的概念分层向下或者引入新的维来实现。
-
维表
-
事实表
-
星型连接
-
广义索引
-
EIS
-
企业信息系统
-
DSS
-
决策支持系统
-
数据方体
-
超方体
-
Data Cube
-
数据单元
-
数据方体预计算
-
数据方体缩减
-
数据方体维护
二、简答题:
30. 请简要说明事务处理环境不适宜DSS应用的原因。
31. 为什么说在传统的数据库环境中直接构建分析型应用是一种失败的尝试?
32. 操作型环境在处理分析型应用时具有的局限性是什么?
33. 传统的数据库环境在处理分析型应用时所面临的局限性是什么?
34. 操作型数据和分析型数据的主要区别是什么?
35. 操作性处理和分析型处理的主要区别是什么?
36. 请举例说明什么是操作型处理?
37. 请举例说明什么是分析型处理?
38. 什么是数据仓库?
39. 请给出一种数据仓库的定义。
40. 数据仓库的四个基本特征是什么?
41. 什么是主题与面向主题?
42. 什么是主题域?
43. 你是如何理解数据仓库的数据是不可更新的,数据仓库的数据又是随时间不断变化的?
44. 为什么说数据仓库是不可更新的又是随时间不断变化的?
-
请举例说明多维分析操作“切片“的含义是什么。
切片:在数据方体的某一维上选定一个维成员的动作。 -
请举例说明多维分析操作“切块“的含义是什么。
切块:在数据方体的某一维上选定某一区间的维成员的动作。 -
请举例说明多维分析操作“旋转“的含义是什么。
旋转:改变数据方体的某一维上选定某一区间的维成员的动作。 -
请举例说明多维分析操作“上卷“(rull-up)的含义是什么。
-
请举例说明多维分析操作“下钻“(drill-down)的含义是什么。
上卷:指沿某一个维的概念分层向上归约。
下钻:是上卷的逆向操作,它是沿某一个维的概念分层向下或者引入新的维来实现。 -
请举例说明什么是分布型聚集函数。
-
请举例说明什么是代数型聚集函数。
-
请举例说明什么是整体型聚集函数。
-
整体型聚集函数有什么特点?
-
分布型聚集函数有什么特点?
-
代数型聚集函数有什么特点?
-
常用的聚集函数有哪三种类型?
1)分布型聚集函数:具有可以累计的特性,非常适合于增量维护。这类函数称为可自维护型(self-maintainable)聚集函数。
(2)代数型聚集函数:可以转化为分布函数,也是可自维护型函数。
(3)整体型聚集函数:在计算的时候需要所有的数据,很难进行增量维护,被称为不可自维护型。 -
常用的多维分析操作有哪些?
-
请举出两种常用的多维分析操作的例子。
-
请举出两种常用的聚集函数的例子。
-
MOLAP存储有什么优缺点?
-
多维数据如果采用多维数组存储方式有什么优缺点?
-
ROLAP存储有什么优缺点?
-
多维数据如果采用关系表存储有什么优缺点?
-
什么是粒度?
-
数据仓库中存在这哪两种形式的粒度?
-
数据粒度与数据综合程度之间的关系是什么?
-
什么是多重粒度?
-
数据分割有哪几种形式?
-
数据仓库中数据的分割是指什么?
-
什么是数据分片?数据分片有哪些类型?
-
请给出一个数据水平分片的例子。
-
请给出一个数据垂直分片的例子。
-
请给出一个数据垂直分片的例子。
-
请给出一个数据垂直分片的例子。
1. 数据集市与数据仓库的区别是什么?
2. OLAP的主要特点是什么?
3. 多维数据模型的核心概念有哪些?
4. 三种常用的多维数据模型是什么?
5. 三种常用的多维数据模型之间有什么区别与联系?
6. 常用的多维数据模型“星型模型“有什么优缺点?
7. 常用的多维数据模型“雪花模型“有什么优缺点?
8. 星形模型的缺点是什么?如何对其进行改进?
9. 雪片模型的缺点是什么?如何对其进行改进?
10. 数据仓库中常用的索引方法有哪些?
11. 什么是Projection索引?
12. R树索引和B树索引的主要区别是什么?
13. 举例说明简单位图索引(Bitmap Index)的创建过程。
14. 举例说明简单位图(Bitmap Index)索引的使用过程。
15. 简单位图索引(Bitmap Index)的主要优点有哪些?
三、论述题:
1. 在向数据仓库追加数据时,捕捉数据变化常用的途径有哪些?
2. 什么是数据集市?它有什么作用?
3. 什么是ODS? 为什么要引入ODS?
4. ODS中的数据具有什么特点?
5. ODS和DW的区别是什么?
6. 在DB~ODS~DW三层体系结构中,存在着哪两级记录系统?
7. 什么是分层ODS?为什么要引入分层ODS?
8. 什么是“操作型”处理模式?什么是“信息型”处理模式?二者如何切换?
9. 什么是企业级联机事务处理?什么是实时联机分析处理?
10. ODS的功能主要是什么?
11. 存放在ODS中的数据与存放在数据仓库中的数据有什么区别?
12. ODS的作用是什么?
13. 在向数据仓库追加数据时,如何捕捉变化了的数据?
14. 试述在数据库和数据仓库之间引入ODS的必要性。
15. 引入ODS主要用于处理哪两种类型的操作?
1. 请简述数据仓库的体系结构。
数据仓库系统的体系结构的分类(1)两层架构(2)独立型数据集市(3)依赖型数据集市和操作型数据存储(4)逻辑型数据集市和实时数据仓库
2. 在将数据源的数据加载到数据仓库前需要完成哪些工作?
3. 数据仓库体系结构中的OLAP服务器有哪四种类型?
4. 什么是ETL工具?其主要功能是什么?
5. 试述数据仓库的设计中提高数据仓库性能的方法和技术?
提高数据仓库效率的方法:1 合并表,2建立数据序列,3引入冗余,4进一步细分数据,5生成导出数据,6建立广义索引,7 粒度划分,8分割
6. 请简要说明数据仓库设计的步骤。
数据仓库设计的大体步骤:(1)明确主题(2)概念模型设计(3)技术准备工作(4)逻辑模型设计(5)物理模型设计(6)数据仓库生成(7)数据仓库运行与维护.
7. 数据仓库的设计方法与操作型环境中系统设计采用的系统生命周期法有什么不同?
8. 数据仓库的设计中,存在着哪三级数据模型?
9. 数据仓库的设计中提高数据仓库性能的方法和技术有哪些?
提高数据仓库效率的方法:1 合并表,2建立数据序列,3引入冗余,4进一步细分数据,5生成导出数据,6建立广义索引,7 粒度划分,8分割
10. 企业的数据库体系化环境的四个层次是什么?它们之间的关系是什么?
四个层次:操作型环境、全局级数据仓库、部门级的局部仓库、个人级数据仓库。
关系:体系化环境的层次反映了数据与应用逻辑的抽象程度层次越多, 体系化环境也就越丰满, 也就越能细致地反映企业中整个数据组织与处理。
11. 什么是数据方体格结构,什么是导出关系?
12. 什么是数据方体预计算?为什么要进行数据方体的预计算?
13. 什么是数据方体的缩减?为什么要进行数据方体的缩减?
14. 什么是数据方体的维护?为什么要进行数据方体的维护?
15. 多维查询语言MDX与结构化查询语言SQL有什么异同?
以上是关于DBMS提纲的主要内容,如果未能解决你的问题,请参考以下文章