海量数据模型实施方法论恢复
Posted
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了海量数据模型实施方法论恢复相关的知识,希望对你有一定的参考价值。
模型是现实世界实物特征的一种抽象,比如地图,沙盘,气象图或者星象图等。数据模型是实物数据特征的抽象。 一。LDM(逻辑数据模型) 三要素:实体,属性和关系,采用实体-关系模型,用ERwin建模。 模型设计的好坏直接关系到数据的: -稳定性 -易用性 -查询性能 -存储空间 -维护成本 理想的逻辑数据模型结构应该如下: -将相关的主题域进行组合,形成更少的高阶分组。 -主题域至少应该包含在一个主要主题域里面,达到可重用性。 -不同行业的主要主题域都不相同 -真实世界实物的描述,静态实体,以及它们之间动态的关系 -实体代表一个人,一个组织,概念或者事件 -属性描述了实体的特征和数据事实 -它们的关系有一对多,多对一,多对多 -相关对象的组合(实体,属性和关系)以表达一个特定的业务功能 -实体可以属于一个或者多个主题域,达到可重用性。 -一个主题域可以由一个或者多个ER图构成,以表达主要目标的不同方面 统一的逻辑数据模型框架构成: -用于管理数据建模的标准和规范 -用于创建可用于业务功能描述的模型方法论 -将逻辑数据模型封装到行业逻辑数据模型的方法论 二。模型设计流程 1)信息分析和数据提取 -了解源业务系统:业务种类和规则 -源业务系统的关系:数据接口,加工规则,怎样保持一致性 -了解源数据结构和流向 -数据概况:数据量,增全量导出方式,数据格式,数据质量 重点讲样本数据检验规则!!: - 验证业务规则 -表间数据关系分析 -每个字段的分析: 字段业务含义,字段取值范围, 字段间有无关联关系, 字段关系是否完整, 数据质量情况(非代码字段的空值,非法值,主键完整性,唯一性,外键完整性) -填写样本数据和代码表取值 2)逻辑模型的设计 目标: - 不针对某个特定的应用而设计 - 以第三范式存放数据,业务发生变化时易于扩展,适应复杂业务情况 - 稳定性:能够在很长时间(比如5年内)适应和回答不断变化的业务问题 - 易解释性:使用业务语言设计,易于IT和业务人员进行交流 步骤: - 统一业务术语:对重要的业务元素进行统一定义 - 构建LDM原型框架:确定着数据仓库的数据组织原则和基本形式,也确定着数据仓库的应用范围和应用模式 确定模型设计的主题范围,主题重要的LOGICAL VIEW, 各主题重要的实体,分类和关系,确定各实体的主键和候选键 - 基于LDM原型框架,进行各主题的详细设计: 创建各主题的实体和属性,尽可能简单,用业务无法二义性解释的语言进行说明 建立各实体的关系,准确体现业务规则 选择主键:逻辑主键或者代理主键 整理相关代码表:建立主外键关系 - 定义转化规则:从源系统到LDM的映射,数据类型,业务转换规则,对数据质量差和缺失的数据的业务规则进行补充说明 - 完善与跟踪: 与技术人员进行讨论: - 如果源业务系统的数据与业务描述不对应 - 如果重要的数据缺失 - 如果实体之间的关系不正确 与业务人员或者分析师进行讨论: - 是否能准确实现业务需求 - 是否能方便理解 - 重要的业务规则是否得以体现 3)物理模型的设计: 在逻辑数据模型的框架和原则上,针对系统性能和应用需求进行适当的非范式化的物理模型设计: 与LDM相同点: - 主题,实体,属性和关系一致以上是关于海量数据模型实施方法论恢复的主要内容,如果未能解决你的问题,请参考以下文章