基于数据仓库及决策树算法的电网事故事件信息智能检索方法研究
Posted 集成电路应用杂志
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了基于数据仓库及决策树算法的电网事故事件信息智能检索方法研究相关的知识,希望对你有一定的参考价值。
基于数据仓库及决策树算法的电网事故事件信息智能检索方法研究
任锦标
摘要:针对电网事故事件,以大量电网事故事件相关信息为基础数据形成数据仓库。针对事故事件数据自身的特点,研究实现有效的索引结构。针对不同数据类型,设计基于分类与回归树算法运用。从而提高对数据检索速度,提高电网事故事件的检索效率。
关键词:事故事件;智能检索;数据仓库;决策树。
中图分类号:TP391.1;TP311.13 文章编号:1674-2583(2019)12-0086-02
DOI:10.19339/j.issn.1674-2583.2019.12.041
中文引用格式:任锦标.基于数据仓库及决策树算法的电网事故事件信息智能检索方法研究[J].集成电路应用, 2019, 36(12): 86-87.
Intelligent Retrieval Method of Power Grid Accident Information Based on Data Warehouse and Decision Tree Algorithms
REN Jinbiao
Abstract — In view of power grid accidents, this paper builds a data warehouse based on a large number of information related to power grid accidents. According to the characteristics of accident data itself, it studies and implements an effective index structure. For different data types, it designs classification and regression tree algorithm. Thus, the speed of data retrieval is improved and the efficiency of Power Grid Accident retrieval is improved.
Index Terms — accident events, intelligent retrieval, data warehouse, decision tree.
1 引言
目前电网系统运行过程中的数据信息普遍具有量大种类多、可用性低以及多变性特征[1-5]。因此,想要从电网系统数据中快速获取有价值的信息,需要针对电网系统的数据特点来设计特殊的索引结构。传统以关键字做模糊匹配的数据库检索方式明显不能满足电网数据的检索要求,同时电网系统运行数据背景下对数据的检索要求是对人员、操作动作、设备状态等数据的多维度综合查询。另外电网系统数据的存储需求至少在 PB 量级,检索要求必然要求检索时间在可接收范围内,并且确保检索结果的准确性。所以,需要针对电网系统数据的高效多维数据检索查询深入研究。
2 电网事故事件智能检索的应用原理
2.1 数据仓库原理
本文以大量的电网事故事件作为基础数据通过建立索引的操作形成数据仓库。数据仓库系统主要分成三个部分:仓库数据的处理、数据仓库存储管理以及对应的数据分析工具。其结构形式如图 1。
数据仓库的数据来源于多个数据源。源数据包括电网运行数据以及各种与事故事件相关的文档的数据。(1)数据接入:主要负责接入外部数据源,获取相关数据并经过复制及重新定义格式等处理,装入数据仓库。(2)数据存储管理:主要负责数据仓库内部维护管理,如对数据存储的组织、维护、分发等服务。(3)数据访问:主要负责面对用户的数据仓库前端操作。由多个工具组成,包括查询工具、分析工具以及数据挖掘工具等。
2.2 交互式检索原理
通过交互式检索更好的帮助用户增强对自身检索需求的挖掘,将用户关注的焦点从检索内容的视觉效果转移到内容本身上。交互式的环境利用信息化手段建立多个私人交互通道,并行处理交互进程,没有了时间和空间的限制。
另外,交互检索可通过记录每个用户的历史检索记录,后台智能生成个性化的用户检索模型。而信息能够通过环境中的开放平台与其他编程语言进行拓展交联,实现不同用户简单信息共享。
而且,能够提供一个视觉简洁的界面,实际能够实现复杂的检索功能,包括对用户检索行为的自动分类聚类、智能填补、纠错校正等,主动培养用户的信息检索素养;在敏捷开发的基础上结合用户情绪,将用户的审美体验跟功能设计置于同等位置,调整至用户最愿意方便接受的状态,消除电网系统运行信息检索系统难用不想用的想法;更着重平台与应用延展性,统一平台应用,应用具有跨平台性,以此消除人机之间的隔离并推动人机交互往情感方向发展,最后基于这些来建立聚合检索环境中的多个应用程序的操作系统。
2.3 决策树算法原理
决策树分为分类树和回归树两种,分类树对离散变量做决策树,而回归树则是对连续变量做决策树。实际上使用决策树进行决策,整个过程就是从根节点入手的,通过测试待分类项中对应的特征属性并按照其值选择输出分支,多次循环选择,直到到达叶子节点后存放的类别作为最终的决策结果。
而分类与回归树算法(CART)的原理是通过假设决策树是一个二叉树,递归地将二叉树二分每个特征并划分为多个单元,在划分的单元上再确定预测概率分布。CART算法中,对于回归树,采用的是平方误差最小化准则;对于分类树,采用基尼指数最小化准则。
(1)平方误差最小化。这里假设将输入空间划分为 M 个单元,以 R1,R2,……,Rm 表示,并假设在每个单元 Rm 上都有固定的输出值 Cm,那么回归树可以用式(1)表示。
如果输入空间划分确定下来,则计算平方误差 式(2),用平方误差来表示回归树的预测误差。
(1)
(2)
(2)基尼指数计算。分类过程中,将 K 个类别的样本点,假设属于第 k 类的概率设为 pk,则该基尼指数定义为式(3)。
(3)
3 电网事故事件智能检索应用实例
通过采集事故事件相关的数据信息,接入后形成数据库源。而数据仓库的数据源是整个业务处理系统能够构建数据仓库的基础,所以就是要通过数据源的确定和采集来作为数据仓库的开始。
再对事故事件相关数据通过 CART 算法在训练数据集的输入空间里,进行递归将每一个输入区域都划分为两个子区域,再决定每个子区域输出值来构建二叉决策树,具体的步骤过程如下。
(1)首先选取最优的切分变量 j 以及切分点 s,如式(4)所示。
(4)
通过遍历变量 j,对原本固定的变量 j 来扫描切分点 s,然后选择变量 (j,s) 使上式达到误差最小,式中的 R1 和 R2 表示的是划分后的空间。
(2)用选定的(j,s)划分区域并决定响应的输出值。见式(5)、式(6)。
(5)
(6)
(3)循环对这些子区域,执行步骤(1),步骤(2),持续到满足停止条件为止。
(4)将输入区域进行划分成 R1,R2,R3,…… 等 m 个单元,生成决策树为式(7)。
(7)
根据该方法可以特征情况进行划分计算,找到最适合的划分点。
最后,通过交互式检索更好的帮助用户增强对自身检索需求的挖掘,将用户关注的焦点从检索内容的视觉效果转移到内容本身上。系统根据搜索信息进行分析,使检索结果无限接近用户需求,从而实现电网事故事件的智能检索。
4 结语
随着现代电网朝着大容量、高电压、强互联的方向发展,电网的结构越来越复杂,故障波及的范围越来越广,所造成的后果也日益严重。
本文通过结合数据仓库、CART 算法、交互式检索等技术,基于历史事故事件数据,在用户实时信息检索过程中对用户信息需求进行深度挖掘,通过不断选取最优特征作为检索索引,可以很大程度上改进检索系统的性能与检索结果的正确性,提高了搜索准确率。在发生事故事件时,为用户提供快速、准确查找相似事故事件的例子,从而为电网运行操作提供辅助信息,提高操作效率,减少风险发生可能性。
参考文献
[1] 田苗苗.基于决策树的文本分类研究[J].吉林师范大学学报(自然科学版),2008(01):54-56.
[2] 曾康铭,吴杏.多层概率决策的网络大数据协作融合算法[J].电子技术应用,2018,44(06): 133-137.
[3] 张宇彤,王思檬,曹佳.基于邻域等价类的同构子图搜索算法[J].计算机工程,2017,43(09): 7-11.
[4] 佘玉轩,熊赟.基于贝叶斯网络的故事线挖掘算法[J].计算机工程,2018,44(03):55-59.
[5] 张冰.基于领域的信息分类和搜索技术的研究[D].山东:济南大学,2009.
===========================
《集成电路应用》杂志国内统一连续出版物号:CN 31-1325/ TN;国际标准连续出版物号:ISSN 1674-2583。国家新闻出版广电总局首批认定的中国A类学术期刊,中国知网优先首发。中国知网、维普网、万方数据、CSCD数据库刊源收入。中国集成电路产业唯一国家核定的学术月刊。
发表学术论文咨询微信:app-ic
投稿邮箱:appic@189.cn
咨询微信:app-ic (17717632153)
QQ:2438523020
邮局订阅:4-915
《集成电路应用》杂志
网站:www.appic.com.cn
微信订阅号:appic-cn
以上是关于基于数据仓库及决策树算法的电网事故事件信息智能检索方法研究的主要内容,如果未能解决你的问题,请参考以下文章