如何在 weka 中添加恶意特征进行分类作为数据集

Posted

技术标签:

【中文标题】如何在 weka 中添加恶意特征进行分类作为数据集【英文标题】:how to add malicious features for classification in weka as a data set 【发布时间】:2013-01-22 03:06:00 【问题描述】:

我正在做一个关于如何使用 weka 数据挖掘工具检测和分类恶意内容的项目。 我开发了一种算法,但问题是我不知道如何以及在何处添加 javascripthtml 或 URl 的恶意功能。

例如:如果有(///)三斜杠,则归类为恶意网址。 同样,我的算法将在其他特征上执行分类。

如果有人知道怎么做,请回复我。

提前致谢。

【问题讨论】:

【参考方案1】:

我们创建了变形恶意软件的 Windows API 调用序列。在我们的研究中,我们将每个软件产生的家族翻译成 8 个主要的恶意软件家族:木马、后门、下载器、蠕虫、间谍软件、广告软件、Dropper、病毒。 https://github.com/ocatak/malware_api_class

【讨论】:

【参考方案2】:

这个问题更多的是关于特征提取或为您的项目寻找领域特征。通常 weka 使用现成的功能。因此,您的问题不是关于如何为您的项目查找和使用功能的 weka。

对于 html 和 javascript,我无能为力,但对于 URL 分类,以下文章可能会有所帮助。

Kan M-Y 和 Thi HON (2005),“使用 URL 特征的快速网页分类”,第 14 届 ACM 信息和知识管理国际会议论文集。美国纽约州纽约市,第 325-326 页。 ACM。

Ma J、Saul LK、Savage S 和 Voelker GM(2009 年),“超越黑名单:学习从可疑 URL 中检测恶意网站”,第 15 届 ACM SIGKDD 知识发现和数据挖掘国际会议论文集。美国纽约州纽约市,第 1245-1254 页。 ACM。

【讨论】:

@感谢 Atilla 的回复,我想使用 weka 工具中的那些恶意功能进行分类。由于我是 weka 的新手,我怀疑我是否必须进行编码或我必须只是根据这些恶意和良性特征制作 arff 数据集?..如果你有任何想法分享它.. 您必须进行编码,以便您的 arff 文件具有这些恶意和良性功能。之后就可以使用weka的算法了。

以上是关于如何在 weka 中添加恶意特征进行分类作为数据集的主要内容,如果未能解决你的问题,请参考以下文章

使用 Weka 进行句子分类

如何在 Weka 中对训练和测试数据集进行分类

如何通过应用 WEKA 计算垃圾短信的“特征向量”?

weka中如何对整个数据集进行分类

如何在weka中预处理数据以进行分类

使用 Weka 进行文本分类