网络流量识别聚类FCM和GMM—使用聚类技术和性能比较进行网络流量异常检测

Posted 2021-11-06 昔我往矣wood

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了网络流量识别聚类FCM和GMM—使用聚类技术和性能比较进行网络流量异常检测相关的知识，希望对你有一定的参考价值。

本文介绍采用高斯混合模型（GMM）和模糊C均值聚类（FCM）来进行网络流量异常检测的方法。

原文来自IEEE，发表日期2013年。

原文链接：使用聚类技术和性能比较进行网络流量异常检测|IEEE 会议出版物|伊 · X普洛尔

K-means聚类和高斯混合模型（GMM）是有效的聚类技术，模糊聚类比硬聚类更加灵活，并且由于使用模型聚类对数据进行自然处理，因此在入侵检测方面非常实用。模糊c均值聚类法（FCM）是一种迭代的最佳算法，通常基于最小二乘法来划分数据集，具有较高的计算开销。本文建议修改目标函数和距离函数，在保持聚类精度的同时降低FCM的计算复杂性。

本文提出了FCM聚类、GMM和特征变换相结合的方法，并且介绍了相关的测试方法和聚类方法的比较。

第一节：介绍

不同的异常以不同的方式出现在网络中，因此设计一个有效的异常检测系统需要从大量嘈杂、高维数据中提取相关信息，区别正常和异常的网络行为的一般模型是困难的。基于模型的算法在应用程序中也不可移植，网络流量的性质发生细微变化，模型也会不合适。因此，基于机器学习原理的非参数学习算法是可取的，因此它们可以学习正常测量的性质，并自主的适应正常结构的变化。

异常数据检测非常重要。因为数据中的异常转化为各种应用领域中重要（且通常至关重要）可操作的信息。例如，计算机网络中的异常流量模式可能意味着被黑客攻击的计算机正在向未经授权的目的地发送敏感数据。异常 MRI 图像可能表示存在恶性肿瘤。信用卡交易数据中的异常可能表明信用卡或身份盗窃或航天器传感器的异常读数可能表示航天器某些部件存在故障。

异常数据检测有很多技术，比如统计学，机器学习，数据挖掘和免疫启发技术。聚类是用于异常检测的机器学习技术之一。它基于这样的假设：正常数据实例属于大型和密集的聚类，而异常不属于任何聚类或形成非常小或独特的聚类。模糊聚类比硬聚类更灵活，对于离群值检测非常实用，因为它考虑到了数据的性质。传统的FCM聚类技术的优点是可以量化元素对检测到的聚类的隶属度。GK-FCM （古斯塔夫森-凯塞尔 FCM）可以生成适合数据形状和位置的聚类。但是二者的计算复杂性很高。本文提出的对目标函数和距离函数的修改降低了计算复杂性，同时保持了分类的准确性。高斯混合模型（GMM）将数据分类具有指定平均值、协方差和混合比例的子类。它对簇大小的区分具有鲁棒性，并且是FCM将数据实例分类为具有高斯分布的簇的一种实用方法。

第二节：异常检测方法

异常检测的方法大概有三种：分类、光谱分析和聚类。

聚类根据数据相似性对数据进行分类，这些相似性可通过距离函数（如欧几里得函数，切比雪夫函数）来测量。好的集群应该具有内部相似性和相互差异性。

聚类可分为两种类型：分层聚类使用以前建立的聚类来查找连续的聚类，分区聚类根据迭代程序同时确定所有聚类。基于密度的算法，如DBSCAN（基于密度的噪声应用空间聚类），以及基于概率模型的技术，如AutoClass和K-means聚类也逐渐流行起来。

第三节：特征选择和简化

通常来说，数据集中许多维度（即特征）在生成模型时没用，为了减少算法复杂性，缩小尺寸很重要。当特征的原始单位和意义很重要且建模目标是识别有影响的子集时，特征选择优于特征转换。当存在绝对特征且特征转换不恰当时，特征选择成为减少尺寸的主要手段。

非负矩阵分解（NMF）和主成分分析（PCA）是广泛应用的特征变换技术。

3.1 非负矩阵分解（NMF）

许多维度（特征）的原始数据所包含的实际信息可能是重叠和相互关联的。在大多数情况下，需要进行特征选择以选择独立且不相关的变量，进行特征约简以获得其低阶近似值并降低大型数据库的计算复杂度，以及进行特征转换以通过线性或非线性转换组合不同的变量并形成显著的特征。

给定一个非负m*n矩阵X和正整数k<min(m, n)，NMF找到非负m*k矩阵W和k*n矩阵H，使X–WH的范数最小化，因此W和H是X的近似非负因子。W的k列表示X中变量的变换；H的k行表示X中原始n个变量的线性组合的系数，这些线性组合产生W中的转换变量。由于k<X的秩，乘积WH提供X中数据的压缩近似值。k的可能值通常由建模的上下文决定。

3.2 主成分分析（PCA）

主成分分析使用正交变换将一组可能相关变量的观测值转换为一组称为主成分的线性不相关变量值。每个主成分都是原始变量的线性组合。所有主成分相互正交，因此没有冗余信息。主成分的数量小于或等于原始变量的数量。此转换的定义方式如下：主分量是空间中的单轴。将每个观察投影到该轴上时，结果值将形成一个新变量。第二个主分量是空间中的另一个轴，垂直于第一个主分量。将观测值投影到此轴上会生成另一个新变量。主成分分析对原始变量的相对比例敏感。

定义一个经验平均值为零的数据矩阵XT，其中n行中的每一行表示实验的不同重复，m列中的每一列表示特定的特征。X的奇异值分解为X=W∑VT，其中m×m矩阵W是协方差矩阵XXT的特征向量矩阵，矩阵∑是对角线上有非负实数的m×n矩形对角矩阵，n×n矩阵V是XTX的特征向量矩阵。PCA变换由：YT=XTW给出。如果我们想要一个降维表示，我们可以将X投影到仅由前L个奇异向量定义的降维空间中，∑L是一个矩形单位矩阵。X的奇异向量的矩阵W等价于观测协方差C=X XT的矩阵的特征向量的矩阵W。

第四节：聚类方法和改进

传统聚类方法将每个数据点分到一个簇，但模糊聚类可以分类为多个不同归属性的聚类。模糊聚类会生成精确的解决方案，并从某个或者一组输入信息中产生结果，其更加灵活。

本节介绍K-means聚类，高斯混合模型，FCM和GKFCM聚类方法。FCM和GKFCM都可以有效的生成集群，但开销较大。然后建议对FCM进行修改（目标函数和距离函数），以简化计算复杂性。还讨论了通过非负矩阵因子化进行特征约简和特征转化的问题。

4.1 模糊高斯混合模型（GMM）

高斯混合模型是通过组合多变异正常密度组件而形成的。它们通常用于数据聚类。通过选择最大化后概率的组件来分配组集。与 K 型聚类一样，高斯混合建模使用迭次算法，该算法会收敛到本地最佳值。当聚类内部具有不同的大小和相关性时，高斯混合物建模可能比 k 型聚类更合适。

对于具有C聚类结构的D维数据集 x，每个聚类是高斯分布，参数μ(i)，聚类 i 的密度为：

簇k的优先概率为a(k)，混合密度是：

其中 x 和 μ 是 I-D 向量，Σ是一个D-D对称的正定矩阵。我们可以根据混合密度定义新的距离函数，具体如下：

它像FCM 聚类中的物理距离一样，具有相同的特征。因此，在距离转换后，我们可以使用FCM程序实现基于聚类的高斯混合模型。聚类过程是一个迭次过程，以最小化目标函数，

这里m：[1， ∞]是一个权重指数，决定集群的模糊性（模糊参数）；值越大，模糊性越强。如果m=1，说明数据集是不模糊的。d是在上上式子定义过的。

迭次过程与传统 FCM 相同，使用三次重复，直到满足标准：通常达到预先配置的阈值。

总结：

本文的方法：FCM是灵活的聚类方法，可以量化元素对检测到的聚类的隶属度；GK-FCM可以生成适合数据形状和位置的聚类；二者计算复杂性很高，所以改变目标函数和距离函数降低复杂性。GMM将数据分成子类，帮助FCM将数据分为具有高斯分布的簇。

有以下需要注意的知识：

（1）明白异常检测（数据）的重要性。不仅是在计算机网络异常流量检测，还有异常MRI图像检测恶性肿瘤，信用卡交易数据异常表明身份盗窃，航天器传感器数据异常表明部件损坏等等。

（2）聚类的假设：正常数据属于大型和密集的聚类，异常不属于或者属于小而独特的聚类。模糊聚类更加灵活，对于离群值检测很实用，因为考虑到了数据的性质。

（3）聚类原理：根据数据的相似性，采用距离函数来度量。

（4）聚类方法分类：分层聚类和分区聚类。

——分层聚类使用根据以前建立的聚类查找连续的聚类；

——分区聚类根据迭代程序同时确定所有聚类；

以上是关于网络流量识别聚类FCM和GMM—使用聚类技术和性能比较进行网络流量异常检测的主要内容，如果未能解决你的问题，请参考以下文章

用EM思想估计GMM（高斯混合聚类）

聚类算法之GMM聚类算法

四种聚类方法之比较

聚类算法，k-means，高斯混合模型(GMM)

Gaussian Mixture Model (GMM)高斯混合模型聚类