华北电力大学于小青,齐林海:基于流数据聚类算法的电力大数据异常检测
Posted 电力信息与通信技术
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了华北电力大学于小青,齐林海:基于流数据聚类算法的电力大数据异常检测相关的知识,希望对你有一定的参考价值。
基于流数据聚类算法的电力大数据异常检测/于小青,齐林海.
随着传感器的使用,电网中的设备每天产生的数据以指数级增长,形成了大规模的数据流。目前,大多数学者使用流数据聚类算法对数据流进行挖掘,但流数据聚类算法的在线数据流处理阶段往往会丢失部分数据,对于一些对数据敏感的应用并不适用,因此本文对现阶段的流数据聚类算法的在线阶段进行改进,实现对电力大数据流进行异常检测。
引文信息
于小青, 齐林海. 基于流数据聚类算法的电力大数据异常检测[J]. 电力信息与通信技术, 2020, 18(3): 8-14.
YU Xiaoqing, QI Linhai.Anomaly detection of power big data based on flow data clustering algorithm[J]. Electric Power Information and Communication Technology, 2020, 18(3): 8-14.
一、基于Redis集群的在线阶段优化
对于CluStream算法的在线阶段,本文提出使用Redis(Remote dictionary server)内存服务器集群来进行流数据的维护。
Redis是一种非关系型的数据库,其读写速度可达10万/s个键值对,可满足对于用户的实时应答。Redis支持多种类型的数据结构,并为每一种数据类型提供了丰富的数据操作。但由于Redis是单线程的并且没有提供冗余等特性,本文以Redis集群的方式代替单个Redis提供数据缓存,Redis集群扩展了Redis的结构及性能,保留了Redis的优点,并能将数据持久化到磁盘进行数据的备份。
Redis集群采用主从结构,从节点保存主节点的备份,集群中各个节点基于Goosip协议互相进行通信,完成相关数据的传输和交换。本文采用最小的Redis集群,其拓扑结构如图1所示。
图1 Redis集群拓扑结构图
在运行过程中,集群中每个节点周期性的向其他节点发送心跳消息来传递节点的相关信息,每条心跳消息包括PING消息和PONG消息,消息中除了包含发送方节点本身的信息外,还包括GossipSection,GossipSection中包含其他若干个随机节点的相关信息。其通信过程如图2所示。
在通信过程中,当发送方发送消息后,会设置等待时间T,若在该时间内没有收到接收方的返回消息,则设置该接收方为PFAIL节点,若集群中超过一半主节点标记该节点状态为PFAIL,则判定该节点状态为FAIL状态即下线状态。由于GossipSection消息中节点是随机选取的,为增大心跳消息中有效消息所占的比例,本文设计维护一个节点时间衰减策略数据结构,即将集群中的节点添加进一个Hash列表,列表中维护每个节点及其Fail次数,每次发送心跳消息时,GossipSection消息总是优先包含Fail次数过多的那些节点的信息。
二、离线阶段聚类算法改进
对于CluStream算法的离线阶段,本文对K-means算法提出优化。在传统的K-means聚类算法中,初始聚类中心的选择不仅影响聚类的结果,还会影响算法的效率。本文就初始聚类中心的选择,提出最佳距离法确定初始聚类中心,其步骤如下:
1)选取数据中第一个点为第一个聚类中心;
2)计算数据中(除聚类中心之外的点)其他点到各个聚类中心的距离,取最短距离;
3)从各个最短距离中取出值最大距离对应的点,将该点作为下一个聚类中心。
该方法不会使聚类中心局限于几个较近的数据点,从而减少聚类迭代次数,使算法执行效率更高。
综上,由于流式K-means聚类算法在线阶段使用Redis集群进行优化,而集群对于数据的处理效率足够高而足以对数据流全部进行缓存,从而保证了数据的完整性;并且Redis本身支持将数据持久化到磁盘,防止了数据因为断电而丢失,保证了数据的安全性。通过对离线K-means聚类算法进行改进,使流式K-means聚类算法能够给出实时应答,满足流数据聚类算法的“低时间复杂度”的特征。
三、 应用成效
将改进的算法应用于用户用电异常检测,可以看到,流式K-means 聚类算法相对于传统的CluStream 算法来说对于数据的处理速度和模型的更新都更快,因此该算法能够很好地对电力行业中用户的异常行为进行检测。
作者介绍
于小青(1994),女,硕士研究生,从事电能质量与深度学习研究工作,18813169761@163.com;
齐林海(1964),男,副教授,从事电力信息化领域教学和科研工作,近年的科研方向是电能质量智能信息处理、智能电网大数据应用等。
联系我们
以上是关于华北电力大学于小青,齐林海:基于流数据聚类算法的电力大数据异常检测的主要内容,如果未能解决你的问题,请参考以下文章
电力大数据一种基于DTW曲线聚类算法的需求侧响应潜力用户挖掘
精彩文章推荐广西大学 覃华等:基于概率无向图模型的近邻传播聚类算法