基于 Multi -Agents 的数据仓库的优化

Posted 数据工程

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了基于 Multi -Agents 的数据仓库的优化相关的知识,希望对你有一定的参考价值。

0 引言
      数据仓库是反生命周期的建立在粗糙 的元数据初始值之上的数据仓库系统,往往在使用过程中暴露出大量的问题 而最终处于被淘汰的边缘受到 Agent 技术 CORBA 结 构 以 及 软 件 质 量 度 量技术的支持 基于 Agent 的数据仓库自适应体系结构能够接受多种有效组件 可实现组件的即插即用并支持多种操作系统平台 数据库平台与网络平台可方便地实 现 组 件 与 数 据 仓 库 自 适 应 体 系 结 构 之间 组件与 组 件 之 间 以 及 组 件 与 用 户 之 间 的 通 信在 Agent 的支持下 实现了在一定范围内按照一定的规范分布计算 负载平衡与自我调整的新型智能数据仓库体系结构 是对传统数据仓库体系结构的有益扩展 为主动 持续 智能地由系统本身进行数据仓库优化提供了基础平台 本文重点讨论了基于该体系结构的数据仓库优化的聚集优化问题。1 数据仓库聚集优化的研究
1. 1 聚集优化的依据
数据仓库元数据聚集部分的内容体现了数据仓库集成性的重要特征 选择在哪些维的哪些粒度层
次上对哪些指标进行聚集处理 历来是数据仓库研究领域的核心问题 也是数据仓库聚集优化的质量目标 本文 试 图 从 用 户 对 数 据 仓 库 的 实 际 使 用 出发 通过机器学习 获取适宜用户的聚集方案 以适度控制聚集的空间复杂性 达到良好的 OLAP 操作效果的目的决定数据仓库聚集空间的每个聚集方案是否应该实体化的决定因素如下:
1   用 户 适 用 度   它 是 通 过 对 用 户 实 际OLAP 操作日志的分析 得出的各聚集方案实体化
必要性的一个量度 分为有必要实体化和没有必要实体化两个度量结果 它在各种度量数据重要性中居第一位。
2  用户期望度  它是用户在设计数据仓库元数据时 对各聚集方案提出的期望值 体现从用户期
望的角度出发 各聚集方案实体化的重要性 期望度越高 表明实体化聚集方案的必要性越大。
3  聚集方案生成权重 它是聚集方案关系图中由父聚集方案 较细节数据 生成子聚集方案 较粗的数据 时的估算聚集负载 作为聚集关系图中聚集方案关系的权重 其值越大 表明聚集负载越大。
4  聚集阈值  它是由一个聚集方案的实体化数据生成另一个聚集方案的实体化数据时,可以消耗的最 大 聚 集 负 载 ( 时 间 负 载 与 空 间 负 载 的 综 合值) ,超过这个阈值的聚集将影响数据仓库采集工具的正常运作。
5  查询阈 值 它 是 在 OLAP 操 作 过 程 中,由一个实体化的聚集方案得到另一个没有实体化的聚集方案时,可以付出的最大临时聚集负载。 该度量值直接与用 户 在 进 行 OLAP 操 作 时 的 忍 耐 程 度 相联系,消耗过 大 的 OLAP 操 作,会 失 去 数 据 仓 库 系统的用户。
1. 2 用户适用度量度
构成用户适用度的质量要素及其质量属性如表1 所示。

我们定义聚集方案的用户适用度 F 是用户对聚集方案的依赖性这种依赖性越大该聚集方案越需要实体化依赖性越低该聚集方案实体化的需求就越小因此归纳用户适用度的实际意义我们可以这样定义聚 集 方 案 的 用 户 适 用 度 F 与 以 上 四 个质量要素 之 间 的 关 系C F (Sche mei ) = (S (Oi ) / S(Ri ) ) V (S (U ki ) / S (R ki ) ) V (S (Dij ) / S (Rij ) ) 9其中9Ri 9R ki 9Rij 分 别 代 表 聚 集 方 案 的 查 询 响 应 敏 捷率\ 归并响应 敏 捷 率\ 钻 取 响 应 敏 捷 率Oi \ Dij \U ki分别代表聚集方案的数据查询率\ 数据下钻率\ 数据归并率其值域均为0 1 之间的实数S 函数S ( ) 是它们所对应的单方面质量方案值其值域与函数F () 的值域相同如需聚集则函数值为1,否则为0 i =1.....N Sch me 当 有 多 个 用 户 对 聚 集 方 案 出 现 不 同的适用度时,可以引进对策模型设定局中人\ 策略所求出的策略的鞍点就是多用户的聚集方案用户适用度的综合解
质量标准(cuality metric ) 是数据仓库质量体系中极为重要的参数其大小设置合理与否直接影响数据仓库优化的合理性所以数据仓库质量模型本身需要在数 据 仓 库 系 统 的 运 行 当 中 不 断 地 加 以 调整直到找到一个较为合适的切入点为止例如各个聚集方案都可以有不同的数据查询率标准以便
区别对待不同的聚集方案
2 是一个最简单的聚集优化的质量标准与单方面质量方案的参考值。

2 数据仓库聚集优化的实现
         数据仓库的聚集优化基于前面所述的数据仓库自适应体系结构予以实现,其运行流程如图1 所示本文采用了 MS OLAP Services 2000 作为聚集优化所作用的联机分析服务器。

2. 1 监测与计算过程
监测
Agent 具 有 持 续 性\ 自 治 性\ 反 应 性 和 交互性1 .1 节所述五点度量值提供决策依据并可以感应环 境 的 变 化 可 以 设 置 监 测 Agent 的 启 动
方式
OLAP 客 户 端 分 析 工 具 启 动 时或 自 动 启动或人工启动 还可以根据实际要求设置监测 Agent 的其他选项虽然MS OLAP Services 本 身 已 经 生 成 了 数据仓库访问日志但是由于其信息不够完整我们还可以通过监测其服务端口2397 \2394 2725 9解析MDX 查 询 语 句生 成 信 息 更 为 丰 富 的 查 询 日 志对于 MS OLAP Analysis 系统的访问日志我们可以调用 MS DSO clsCube AnalyZer 对象的 OpenOueryLOgRecOrdset 方法来访问系统日志 在得到访问日志后监测 Agent 即可按照质量要素及其计算方法得到各个质量要素的值并最终得到各聚集方案的用户适用度 而用户期望度预先保存在元数据当中所以可以直接从元数据库中读取 聚集方案关系图中的聚集关系权重包含了聚集方案的空间复杂性和时间复杂性可通过对维表中的维成员个数及 大 小 的 考 察 获 取亦 可 通 过 MS DSO 中 的cls Aggregati On 对 象 的 Esti matedRO Ws 方 法获 取聚集方案作用的记录个数9作为时间复杂性的主要衡量指 标通 过cls Aggregati On 对 象 的 Esti matedSiZe 方法获取聚集方案所需的空间。
2. 2 决策与优化过程
      质量决策
Agent 提供人机界面和查询\ 报表功能等允许用户对质量体系结构进行修正 用户也可通过对决策报告库的查询获得需要了解的所有决策意见。当获得了所述的聚集优化的五类度量值后决策 Agent 基于当前的聚集方案关系图9利用聚集方案自身优化算法与聚集方案最优寻径算法得到需要实体化的聚集方案集合以及它们之间的递增聚集关系( 即最优聚集路径) ,并给出各未实体化的聚集方案的最优查询路径。
      质量保障
Agent 读取决策报告将决策意见分为建议型质量决策与自动修正型质量决策两类对终端用户提供信息提示 对于建议型质量决策质量保障 Agent 周 期 性 地 给 用 户 提 示 决 策 意 见 同时质量保障 Agent 根据质量决策报告中要求实体化的聚集方案利用 MS DSO 对象实现聚集方案的引入 如通过clsPartiti On AnalyZer 对象的 AddEXisti ng Aggregati On 方 法可 以 由 一 个 指 定 的 聚 集 方案衍生出一批新的聚集方案满足性能提升比与存储空间要求通过clsPartiti On AnalyZer 对 象 的 Add Oalcuery 方法可由指定的查询需求代表的聚集方案产生一批新的满足用户需求的必要聚集方案该方法所需的权值就是该聚集方案的用户期望度。
3 结束语与展望
      数据仓库优化反映了数据仓库反生命周期规律的重要特征 本文提出的方法其根本用意是将普通用户从积累大量数据仓库知识\ 频繁地修改数据仓库元数据 过 程 中 剥 离 出 来以 适 应 需 求 的 变 化基于具备数据仓库专家经验的数据仓库质量模型通过 Multi -Agents 软 件 平 台[4 6 ],通 过 机 器 自 学习和主动决策代替用户进行相应的工作 本文所述的数据仓库自适应体系结构与数据仓库聚集优化方法在作者负责开发的< 中国人民银行大连中心支行清算中心清分信息服务系统> 以及< 大连国际合作集团决策支 持 系 统> 中 得 以 应 用收 到 了 良 好 的 效果。
      然而
在聚集方面仅仅进行适应性研究是不够的在数据仓库系统中的数据淘汰\ 数据定义以及数据采集等方面都需要研究其相关的数据仓库质量目标\ 质量要素及质量方案 同时数据仓库优化的元数据优化主要依靠的是数据仓库质量而数据仓库质量模型需要经过长期的机器学习过程之后才能得到一个适应运行环境和用户的质量模型进而指导系统转变为自适应的数据仓库系统 这也是作者下一步研究的主要内容。

以上是关于基于 Multi -Agents 的数据仓库的优化的主要内容,如果未能解决你的问题,请参考以下文章

利用数据仓库优化数据分析该怎么做?

大数据挖掘如何利用数据仓库优化数据分析?

优化求解基于matlab遗传算法求解仓库货位优化问题含Matlab源码 022期

优化求解基于matlab遗传算法求解立体仓库出入库路径优化问题含Matlab源码 2028期

优化求解基于matlab遗传算法求解立体仓库出入库路径优化问题含Matlab源码 2028期

优化求解基于matlab遗传算法求解立体仓库出入库路径优化问题含Matlab源码 2028期