研究池从日志到故事:以人为中心的数据挖掘技术用于网络威胁情报

Posted 福韵 网络情报研究

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了研究池从日志到故事:以人为中心的数据挖掘技术用于网络威胁情报相关的知识,希望对你有一定的参考价值。

2020年第8卷

NED AFZALISERESHT,YUAN MIAO,SANDRA MICHALSKA,QING LIU,HUAWANG

数字对象标识符10.1109/ACCESS.2020.2966760


文章历史
收到:2019年12月6日
接受:2020年1月2日
出版:2020年1月15日
当前版本:2020年1月30日

关键词
网络安全 讲故事 威胁情报 人类认知 信息提取 知识发现

目录
摘要
1. 简介
A.大量的事被记录但无法被理解
B.具备除安全日志以外的知识用于分析
C.可被解释的人工智能(AI)和讲故事方法
2.相关工作

A.黑箱

B.可视化

C.结构化

D.叙事性

3.术语

A.知识库

B.事件

C.警报

D.报告(安全报告)

4.日志驱动叙事模式

A.预处理层

B.提取层

C.推理层

D.故事层

5.案例研究
A.预处理层
B.提取层
C.推理层
D.故事层
E.评价
6.讨论
A.研究贡献
7.结论


// 摘要 //

一个中等规模的组织机构平均每天系统上的日志记录次数约为10至500万。其中只有不到5%的威胁警报由专业人员进行侦查,这为潜在的攻击遗留下了安全隐患。以机器友好型而非人类友好型的形式产生的警报信息不足,导致目前有限的网络安全资源在认知上出现超负荷。本文通过应用新颖的安全日志讲故事技术,提出了用自然语言生成报告的模型。该解决方案通过提供可调整的模板(由本地和全球知识库进行填充),以此来满足专业知识和偏好处于不同层次的读者。验证过程是在教育机构安全运营中心(SOC)的案例研究的基础上进行的。报告在理解力和完整性方面证明优于现有方法。评估结果表明了在网络安全背景下的潜在威胁解读中,讲故事所带来的的力量。


1.简介

A.大量的事件被记录,但无法被理解


在计算机系统中,每天都有数百万次的活动会被记录下来。例如,一所由3000名教职员工和4万名学生组成的大学,每年登记记录的活动或事件约为2亿次。与此同时,只有约20%(或40000万)的记录事件会由专门的安全系统进行分析。相较于所记录的事件量,大学的网络安全团队仅由不超过10名经过培训的专业人员组成。


目前为止已经有许多算法被提出,它们用于对事件进行自动分析以及针对潜在的恶意行为发出警报[1]。现在能够被使用的各种类型的监测系统层出不穷,均可产生潜在的威胁警报。为了妥善应对疑似威胁,需要对目前的分解系统进行综合处理。尽管如此,围绕潜在的恶意警报来建立环境主要是一项人工任务,这涉及到丰富的经验和事件分析方面的知识[1]。因此,在有害事件和欺诈活动的检测、及时解决以及未来的预防方面,综合警报分析已经成为一项重要的任务。


虽然监控系统有助于过滤数以百万计的记录事件并生成安全警报,但最终的人为评估仍然是不可或缺的一部分。因此,从不同监控系统收到的数千个潜在的安全漏洞对网络安全团队在资源上造成了巨大负担。鉴于这种警报的表现形式是对机器友好而非对人类友好,同时也所需的大量的专业领域知识,所以只有网络安全专业人员有权对发生的警报作出解释[2]。


当然,全面而准确的的警报评估同样容易产生主观性的判断,这也是人为评价过程中不可避免的一部分。因此,正确的应对措施高度依赖来自网络威胁管理领域的分析师的长期经验。目前,安全警报的数量急剧增加,并且已经超出了稀缺和昂贵的网络安全资源的承受能力。


B.具备除安全日志以外的知识用于分析


尽管安全警报数量巨大,但只有其中的小部分需要进一步深度调查。即便如此,安全分析人员仍需要花费不少的时间和精力来确认警报的真实性。为了正确评估风险的规模,安全分析人员还需要掌握安全日志以外的知识。本地知识决定了内部资产风险,外部的潜在风险由全球领域知识来把控。可以参考以下的例子:


所需的本地领域知识:


某组织的一台服务器用于临时存储和网络测试,并被标记为了非关键主机。除非发生严重的违规行为,否则大部分来自该服务器的警报可以被忽略。该服务器设在财务部门,用于财务报告和预算规划。财务部门通常掌握着关键性信息。如果该部门的某台服务器出现严重违规警报,那么其他服务器也可能面临潜在的网络风险。所以尽管其他服务器没有发出明确的警报,但仍需要进一步调查。因此应当在对组织内部全面了解的情况下,提前采取特殊的防御策略。


所需的全球领域知识:


由于某机构的网络专业人员数量有限,所以应当优先处理关键性的警报,而非全部的安全漏洞,以便于迅速的做出应对措施。对于关键性警报选择的依据是根据历史记录中的反复提示以及以往的知识和经验来进行筛选。想要针对新的攻击来做出应对措施则需要深入调查攻击者的特点,但是攻击者可能会因为从事多次的攻击活动而改变自己的行为特点。


在如今的数字化环境当中,专家的知识水平难以与数字化环境中的攻击手段的多样性保持同样的成长速度。因此,严重的警报可能没有引起优先的注意和重视,从而导致应对滞后和警报等级升级的状况发生。因此,机构需要从外部来源自动获取知识,以跟上日益复杂和不断变化的网络攻击的步伐。


这两个例子都表明,全面的警报分析需要本地和全球知识。如果在警情分析中不能针对完整的知识进行建模和整合,造成的结果将是要么触发误报,要么忽略了高危警报。


C.可被解释的人工智能(AI)和讲故事方法


在之前的研究中,自动化的网络情境感知(CyberSituation Awareness,CSA)工具和模型已经被提出,它旨在加强专家的认知能力[3]。正如Endsley所定义的那样:“情境意识是指在一定的时间和空间内对环境中的要素的感知,对其意义的理解,以及对其在不久的将来的状态的预测。” 因此,情境感知系统的设计是从几个不同角度对数据进行梳理、处理和融合的[4]。然而,现有的网络情境感知系统还不足以应对不断变化的网络安全挑战[3]。即便能够起到帮助作用,安全专家们仍要消化海量的数据,从而去发现其中隐藏的环节和依赖关系。


讲故事是一种帮助和吸引人们去探索以及解释复杂的现实世界问题的方法。Vink认为[5],在问题的表述过程中使用讲故事的方法,可以使问题的综合和分析更加具体化,也使得抽象的概念更加具体化。讲故事可以作为一种知识边缘的表示方法,从日志文件中突出显性和隐性信息,并将其转换为人类可以理解的格式[6]。


鉴于日志和警报的数量庞大,故事必须是自动生成的。自动化新闻报道便是新闻报道领域的一个重要成就。根据个人喜好制作的具有故事性的技术报告和财务报告,对他们的理解有积极的影响[7]-[10]。


这种方法在以下两个方面也优于传统的“真人”记者,即(1)更快地生成报告;(2)易错率低。考虑到其众多的优点,自动生成故事的方式在安全日志文件解读方面还有待探索。


尽管其大有可为,但目前的自动化新闻业的一些局限性也已经被发现,具体如下:


(1)灵活性限制。故事使用预先定义好的模版,以适应特定领域的数据质量要求。

(2)语境限制。延伸、补充信息整合和新知识贡献的机制目前还处于缺失状况[11]。


在本文中,自动生成多层次细节的故事报告(即专家和非专家),提供了一个全面的网络情况视图(即从本地和全球数据库中获取),填补了安全日志记录分析的现有空白。根据现阶段所提出的模型,不同于当前方法的地方在于(1)仍依赖安全专家的知识和专业技能或者说是(2)洞察力的深度有限,可以揭示问题的根本原因,以便于对潜在的威胁做出正确的反应。其新颖性来自于报告的人机交互界面,在各种应用(如自动记者)中证明是成功的,但在网络安全领域仍未得到充分利用。



2.相关工作

在日志文件分析过程中,很多研究都是为了尽量减少人与人之间的交互作用。分析结果的表述方式可分为四大类,即:“黑箱”、“可视化”、“结构化”和“叙事化”。在本小结中将分别对每个种类的例子进行简要介绍。虽然叙事方法还没有应用于日志文件分析,但将从不同的角度来探讨其对网络安全领域的实用性。


A.黑箱


这个代表组被命名为“黑箱”,因为无法解释,以及无法窥其内在结构来证明其分析过程是如何运作的。其结果通常以布尔格式显示,以确定是否存在异常(恶意)活动。例如,Muggler等人[2]将各种机器学习技术,包括朴素贝叶斯(Naive Bayes)、K最近邻(K-NearestNeighbours)和支持向量机(SVM)等机器学习技术应用到大量的日志中,并发现了异常活动。黑箱法通常被认为是不可靠的,因为对不同情形和标签分配方式的推理证据不足,所以黑匣子法不值得信赖。举个例子,某公司通过渗透测试模拟网络攻击。这种活动不应该被称为不正常的活动,因为它是由被授权人进行的。在缺乏解释的情况下,如何区分渗透测试活动与真实攻击?如果没有这种意识,真实的攻击可能会被专家忽略。


B.可视化


已经有大量的文献试图通过可视化技术的运用,让人为的监督参与到数据分析过程中[12]。可视化的表现形式便于人为认知,提高对潜在问题的识别能力[13]。例如,Xu等人工作中的决策树(作为分析显示的层次)被用来演示系统如何决定分配一个正常或异常标签到日志记录[14]。它是基于有限的、预设的标准,并不能提供全面的视图。


Aharon等人用图表来显示系统行为状态[15]。该图表根据聚类算法显示了不同组的日志消息及标签(正常过程或故障过程)。在图上聚类类似的消息是有用的,它确实进一步解释了为什么特定的消息属于一个类别。


Samii和Koh[16]通过提供一个基于交互式查询的系统中的搜索功能,考虑到了事件的更多方面。在交互式的可视化界面上,将信息从高级视图显示到原始日志文件。Li等人[17]提出了一种处理各种类型事件日志的系统,提供了一种简单的分析方法。从日志中提取了统计知识,并在仪表板上进行了描述。除此之外还提供了一个基于交互式动态查询的表格,以支持探索更多的事件信息。


交互式的可视化界面和基于可视化查询的交互方式被绑定在特定的图形功能中,无法完全地支持分析人员提供全面的分析报告。例如,如果在界面或仪表盘中没有考虑到HTTP方法作为设计特征,专家就不能用'HTTP POST'来查询所有连接。考虑更多的设计功能则需要有较高的知识水平和专家的培训,才能了解应该通过它来搜索什么,以及从结果中得到什么。


Azodi[18]等人试图通过攻击路径识别来解决这个问题。借由正则表达式来发现与警报相关的事件,以获得对攻击进程的了解。攻击路径以图表的形式显示出来,不同攻击之间的相关性以链接的形式显示出来。虽然可视化的图表提供了更多的设计特征,也提供了更多的来源和目的地之间的连接信息,但是仍然缺少即时推断所需的相关解释和细节。例如,该图显示的是我们组织的服务器与外部网站之间的连接。但是,它并没有显示出通过该连接使用的HTTP方法是什么。总的来说,现有的可视化界面并不能提供足够的信息来区分正常连接和恶意连接,以帮助专家进行网络情境感知。


C.结构化


许多研究都试图将日志结构改变成丰富的格式,以提高理解能力。Nimbalkar等人[19]翻译了日志文件并添加了语义关键词。该结果在语义RDF链接数据中进行了展示,这是一种可被机器解释的表示方式。对网络分析人员来说,缺乏概念描述及其关联关系是机器可读格式的潜在缺点。此外,这种表示格式对于非专业人员来说尤其具有挑战性。总之,RDF作为一种结构化的数据格式,具有很强的机器可读性,但不适合人工进行报告和分析。


在网络安全领域,为了解决在使用收集所有重要板块缺乏综合分析的问题,有人提出了信息交换格式,以加强每个参与者的知识水平[20]。结构化威胁信息电子表达(STIX)[21]和事件对象描述与交换格式(IODEF)就是其中的两种[22]。STIX主要从整体的角度关注网络威胁情报,而IODEF主要集中在攻击者和防御者信息。它们是为了不同的目的而产生的[23],机器可读的格式使得要理解各个组成部分以及它们之间的关系变得极具挑战性。


唯一的人类可读的交换格式是X-ARF[24]。然而,X-ARF是一种只能通过电子邮件交换有限的恶意警报类型的基本格式。邮件中包含的信息十分有限,如警报描述、警报类别、攻击者和攻击者的初始信息等[25]。交换格式将警报信息转移到一个新的结构中,并添加描述来丰富警报信息。因此,他们的主要目的是分享警报信息,而不是对警报信息进行解读,提供更多的证据以提高其可理解性。


D.叙事性


虽然叙事活动是一种意义上的生成过程,而非成品,但就分析便利化方面而言,叙事性的解释可以起到很好的作用[26]。目前为止,网络安全分析人员并没有采用叙事性的形式。Wu等人[6]提出了一种改善社交关联的数据驱动的讲故事系统。该系统通过物联网的传感器数据转化为老年人的身体状况,以此来建立独居老人与家人之间的联系。通过GoalNet将原始数据映射到语义上有意义的变量,并根据好奇心规则生成动态故事情节。Wu等人[6]在输出结果中只提供了一个层次的解释,以吸引成年儿童(儿时因家庭原因,童年时期受到心理创伤的成年人)的注意力。虽然系统无法解释老人的详细情况,并引用触发式传感器作为证据,但他们认为自己达到了吸引成年子女注意力的目的。警报信息中的多层次的故事可以成为网络安全领域中支持分析过程的新颖方法。它可以将简单的概念用有顺序的句子组织起来,以辨别事件的走向。当人们使用讲故事的设计模式对日志文件中的事件进行建模时,更容易识别事件的相关性[11]。



3.术语

A.知识库


在本文中,我们使用两个主要数据库(本地和全球),用于获取有关警报的情境信息。在完整性方面,提供内部和外部资源以实现足够的理解水平。


本地知识库包括内部处理的补充信息,以及从安全设备收集的原始数据。本地知识库包含有关事件情况的明确知识。隐式知识通过预先定义的规则和程序添加到知识库中。本地知识库包含(1)内部服务器和主机的列表以及相关信息,包括域名、管理员、严重程度(低、中、高)、位置和已安装的应用程序(2)故事模板(3)分析规则(4)常用表达(5)关键词列表。


全球知识库包含由外部公司及其研究人员收集并在内部处理的补充信息。全球知识库由以下信息组成(1)Whois命令[27],(2)总计病毒1(3)威胁矿工2(4)AlienVault3(5)排序规则(6)WindowsDefender安全情报(WDSI)4和(7)Symantec.5


B.事件


在本文中,事件是监视系统在日志中记录的操作状态。


C.警报


警报是在异常事件发生时生成的消息。当观察到事件描述的一部分现象与其预定义的模式匹配时,安全设备就会生成警报。生成的消息(在本文中称为警报消息)为进一步分析提供了简短描述。


D.报告(安全报告)


报告是一个提供有关警报详细信息的文档,用于帮助分析人员了解有关注册的异常事件的更多信息。



4.日志驱动叙事模式

图1展示了由四个独立层和主要过程组成的模型。每一层的详细内容,即每层中的主要目的和相关步骤如下:


A.预处理层


在这一层,会对警报消息进行解析来提取基本字段。这些字段包括与警报相关的时间、日期、源Internet协议(SrcIP)、目标Internet协议(DesIP)。案例研究使用了安全信息和事件管理(SIEM)系统6生成的警报。


由于所选字段是每个警报消息中的主要属性,因此建议的方法不依赖于特定的设备。监视系统可以根据警报消息将警报记录L表示为{日期,时间,SrcIP,DesIP,消息}。


日期和时间值 表示事件注册的时间。这些值可以不同于警报日期和时间(在事件之后接收)。




消息值 表示主体对对象进行的行为。此值通常包括用于威胁的分类组名称。因为这篇文章考虑恶意软件类别,该值包含“恶意软件”或“木马”等术语。


用于解析和标记警报消息的常规表达式集合。分隔符包括“ /”、“?”、“.”、“=”、“-”和“ _”。该层之前的提取解析器和工具将用作预处理。产生的输出将进一步用于提取层。

【研究池】从日志到故事:以人为中心的数据挖掘技术用于网络威胁情报
图1: 由四层(米色盒子)和操作程序(白色盒子,除了故事)组成的日志驱动的讲故事模型概述 层)。
故事层表示具有修改功能的最终输出。


B.提取层


虽然是对预警信息中的基本字段进行选择和检索,但是通过警报的基本信息、基本字段与相应信息之间的关系,可以发现这些内容之间潜在的逻辑联系。


在这一层,警报消息由补充信息进行补充,以弥补数据的不足导致的认识不足[3]。因此,可以从各种不同的来源,如不同的部门和所有者,充分了解警报情况[28]。从本地和全球知识库提取与警报消息相关的信息,这些信息映射到L(提取层)中提取的基本字段。提取层包括3个主要阶段,它们使用L的不同字段。


第一阶段 查看使用日期和时间同步事件时的聚合日志文件。日志文件中的每个日志记录都有日期和时间引用。事件是根据时间顺序排序的。事件的日期和时间来自于L和日志文件中的基本字段,它们来自于从各种网络设备中所收集的日志记录。以时间为单位的二进制搜索应用于检索特定时间间隔内的事件。由于某些日志是基于UTC记录的,而其他日志则是基于本地时间记录的,因此应用C=-1天时间跨度来覆盖所有相关日志。日志文件还提供了关于连接的源和目标IP的信息。因此,通过对整个特定区间的跟踪,可以找到SrcIP与DesIP之间的对应连接。这个阶段的输出是一个事件列表,表示在特定时间间隔内发生的源和目标之间的连接。



第三阶段 使用警报消息映射到Snort[31]规则以提取完整的恶意软件分类短语。Snort是一个轻量级的网络入侵检测系统,它使用规则来执行内容模式匹配并检测各种恶意软件。Snort规则是开源的,用于各种安全设备。通过将消息字段从L映射到Snort恶意软件规则,可以提取感染的完整短语。虽然Snort和Snort规则通常被认为是要在安全设备的匹配引擎中测试的独立开源模式列表,但警报消息通常包含Snort分类标签,它定义了恶意软件类别[32]。在本文中,该方法仅限于Snort作为匹配引擎核心的安全设备。由于Snort是一种流行的入侵检测系统,这并不是一个严格的限制和多种商业和开源设备使用的Snort规则。


C.推理层


在这一层中,通过使用人工元数据和机器学习技术来分析信息,以重构过去的事件,从而回答三个核心问题:参与者(谁)、风险(什么)和事件在相关日志中的证据(如何)。为了了解谁是参与者,以及行为的目的是什么,已经在提取层中提取了与恶意网站相关的信息。但此时仍然没有足够的细节来解释行动的目的是什么。因此,恶意软件的定义是自动提取网页文章,可能载有与恶意软件解释相关的句子。为了实现这一目标,我们借鉴了[33]的思想,并使用scraper监视顶级安全技术博客列表中的每个网站,以提取相关的补充信息。


这里需要注意的是,虽然网站的列表是有限的,但方法并不局限于他们,列表可以定制。个案研究中使用的网站例子如下:


• AlienVault

• 赛门铁克(Symantec)

• Windows卫士安全情报(WDSI)


scraper在每个网站上执行广度优先爬虫,以搜索在提取层找到的恶意软件分类短语。为具有相同html模板特征的页面生成文档对象模型(DOM)树。这些页面包含相关的定义,而不是登录、订阅、广告等被认为不相关的定义。比较所有页面的DOM树,以识别节点与来自恶意软件分类短语C ' is '的标记短语的组合,该节点下的文本标题为“总结”、“定义”或“行为”,从“这个恶意软件”、“这个病毒”或“这个木马”开始。它是提供关于恶意软件的进一步细节和明确行动目的的方法。


为了获得关于事件风险的更多信息,将来自潜在受损的内部服务器的信息应用到规则列表中以获得证据。证据是一系列的结论,这些结论基于内部信息来证明事件的风险。一组规则用于推断有效的结论,它定义了风险。风险是基于内部资产价值的位置和严重性。例如,财务部门中的服务器面临比其他部门更高的风险。内部信息(图1)中的严重性和位置值可以触发多个规则。触发规则的输出是有关风险的模板语句,将选择这些语句来完成后续层(故事层)中的故事。


为了向警报提供相关事件的证据,在相关日志中搜索从外部恶意网站提取的信息(URL、下载文件、通信文件)。利用提取的URL上的k-均值聚类,将其作为一个分类问题框起来,达到了这个目的。输入URL被划分为不相交的子集,然后对于每个子集中的每个URL,计算到同一子集中所有其他URL的距离,并且具有最小距离和的URL应该是中间值。为了从每个子集中提取最大长度的URL,使用NLTK库,它提供了一个Ngrams函数来迭代N的值。然后,在相关日志中搜索每个子集的最大长度URL(表示URL的模式),以提取证据。重复将删除URL,并选择URL作为症状以充实报表。


D.故事层


从分析丰富的数据生成故事是本文的主要贡献。如果使用故事性设计对事件进行建模,那么人们就更容易在日志文件中找到事件之间的相关性。一个故事可以包含事件的不同方面,并且可以传达警报的含义。因此,在讲故事设计中,通过对安全警示的解释,既能达到理解的目的,又能达到理解的目的。


故事可以根据个人读者的需要和喜好个性化。如图1所示,可以在界面的'Send to Group '部分中选择目标受众,故事部分中显示了基于他们偏好的适当模板。该模板是可修改的,可以根据首选项和内部策略进行自定义。每个模板包含一组变量(黄色边框),这些变量是通过前面的层初始化的。在这一层中,检索到的信息和分析结果自动存储在本地知识库中,用来替换故事中的变量。每个变量都包含它自己的原始层。例如,日期和时间是从预处理层的警报消息中提取的变量。


事件的风险性在基于触发规则的单独模板中进行了解释,并用更多的内部建议来丰富消息。结果是知识集,以及它们之间的关系。换句话说,这个故事是基于模板和来自前一层的检索信息之间的关系生成的。生成的故事可以设置为对事件的响应的未来行动的“票”,管理的“报告”,广播的“帖子”,以增加对发生的事情的认识。虽然讲故事设计是基于模板的,但是模板和规则很容易修改,不需要大量的技术知识。定制可以根据组织的需求来实现。



5.案例研究

为了验证所提出的模型,在现实场景中进行了案例研究,更具体地说,把日志驱动的讲故事模型生成的报告与外部供应商机构生成的报告进行相比。这就是安全工程。


安全工程是SOC小组在教育领域进行商业网络安全分析的工具。更具体地说,安全工程提供事件响应服务,用于在受监控的日志文件中检测潜在的网络威胁,并通过生成适当的报告向客户发出警报。该供应商声称将结合人机分析能力来协助信息安全服务。安全工程表示:“为了确保即使我们的机器学习模型有时会遇到问题,人类和机器也能协同工作”[34]。因此,生成报告仍然依赖于人类协助来获得可操作的网络威胁情报。


至于技术细节,安全工程的机器端管理教育学院大约800台服务器的日志,2000-6000MPS9(低假期、高学期)和每年600-700起高风险事件。人性化方面包括手动协助和已登记事件的人性化报告格式生成(以便客户了解其网络安全状况)


安全工程生成的网络威胁情报例子如下:

MALWARE-CNC Osx.Keylogger-Elite - 10. 233.62.247 ->104.239.223.14 02/27/2019 5:05 PM


A.预处理层


基本字段(即{(日期、时间、SrcIP、DesIP、消息)})是使用表1中的正则表达式从警报中提取的。


表一:案例研究中使用的正则表达式

【研究池】从日志到故事:以人为中心的数据挖掘技术用于网络威胁情报


B.提取层


与基本字段相关的信息按照以下阶段进行检索。


第一阶段:


根据日期和时间以及源-目的地连接识别相关日志。为了确保最大可能覆盖相关事件,将时间间隔设置为事件前1天和事件后1天。由于事件发生的日期和时间(基于提取的基础字段)是2019年2月27日下午5点05分,所以时间范围设定为:2019年2月26日5:00PM - 02/28/2019.5:00PM(允许所有设备记录它们的日志)。在规定的时间间隔内,大学的监控设备总共记录了64443681个日志。基于SrcIP和DesIP进行过滤后,事件数量减少到12个。这将提供表示指定时间范围内SrcIP和DesIP之间发生连接事件的最终列表。


第二阶段:



内部服务器={(10.233.62.247,Sev1.edu.au,Tommy Schart,IT-developer group, CoNsoleKit Microsoft Visual C++)


在包括IP 104.239.223.14在内的报警消息中检索到的关于外部服务器的信息(即IP、域、url、位置),存储在全球知识库中为:


外部服务器={(104.239.223.14, service. macinstallerinfo.com,Urls*,10US)


第三阶段:


由于本文只关注恶意软件,因此只搜索与具有以下标题的恶意软件相关的Snort规则来识别匹配分类:snort3-malware-backdoor.rules,snort3-malwarecnc.rules,snort3-malware-other.rules,snort3-malware-tools.rules。匹配的Snort规则,映射到基本字段中的信息部分如下:

【研究池】从日志到故事:以人为中心的数据挖掘技术用于网络威胁情报


C.推理层


这一层的目的是回答关于事件“是什么”、“谁”和“为什么”的问题。“MALWARE-CNC Osx.Keylogger.Elite变式出站连接”是恶意软件的分类短语(根据:提取层,第三阶段)。该恶意软件的定义是从全球知识库中存储的网络安全领域的网络文章中提取的。提取的案例研究定义如下:恶意软件分类短语+‘is’+行为。定义是在赛门铁克网站“行为”节点下找到的11,包括:



然后,将恶意URL分为五类,每类由最大长度URL表示。在12个相关日志中对这些进行搜索,以提供事件的证据。在相关日志中匹配的URL被随机选择用于下一层。由于感染服务器不在财务部门,且严重性为中等,因此触发了基于严重性和位置的2个规则,并为每个规则选择了相应的模板。


D.故事层


该层生成了基于前一层自动检索变量的故事。将完整的模板与商业工具报告进行了对比。


建议模型生成的报告(图2a)是完全自动编译的,而安全工程生成的报告(图2b)则需要机器处理和人工协助。

【研究池】从日志到故事:以人为中心的数据挖掘技术用于网络威胁情报

a 安全工程报告           b讲故事报告

图2:默认(a)和建议(b)解决方案为响应安全警报而生成的报告


E.评价


由于对这两份报告的叙述形式的正式评估是定性的,因此,网络威胁管理的改进证明是一项具有挑战性的任务。在这篇论文中,我们关注的是报告中要回答的核心问题,即(行动者(谁),风险(什么),证据(如何)),作为提出模型评估的基础。因此,定义了以下两个标准:(1)完整性和(2)理解力。在我们的案例中,完整性是指获得对情况的充分理解所需的信息量。通过假设,故事模型由于其来自不同知识库的自动填充功能,提供了采取行动所需的完整信息。另一方面,标准报告(本例中为安全工程)需要手动搜索丢失的信息。为了提高结果的可靠性,对另外10个警报进行了调查。


由于不同类型的警报需要不同的调查时间,因此选择了总共11个警报的随机样本。来自SOC团队的一名专家参与了经验警报分析,该分析包括从内部和外部来源填写缺失的信息(类似于提出的模型)。教育学院在2019年2月11日至2019年2月28日期间获得了被归类为恶意软件(潜在设备泄露)的安全工作报告。表2显示了完成报告所需的知识的状态(“完整性”标头)。专家手动检索必要的信息,提取时间以秒为单位(“完成时间”标头)。11个恶意软件警报的平均提取时间为1455.36秒,(大约25分钟)


因此,总的来说,它花费了大约30分钟回答关于演员、风险和证据的核心问题(完整性=25分钟+理解=5分钟)。因此,该模型在充分了解情况的基础上缩短了约83%(25/30)的响应时间。在讲故事模型中,如果有足够的关于什么、谁和为什么方面的信息,那么获得对警报的完全理解所需的时间大约是5分钟(=300秒)。理解所需要的时间是与完整度直接相关的(丢失的信息必须手工查找和提取)

 

表二:经验结果

【研究池】从日志到故事:以人为中心的数据挖掘技术用于网络威胁情报


我们还调查了11个警报连续出现的情况(繁忙时段)。为避免潜在损害和进一步升级,应立即处理警报。响应所有警报的时间设置为每个连续警报的完整性和理解时间的累加和。由于警报是按顺序处理的,因此总响应时间逐渐增加。表3展示了在一天内连续收到11个警报的情况下,响应警报的累积延迟时间。考虑到这种情况,与SOC团队以半手动方式(现有方法)得出的报告相比,提议的模型有可能将响应时间减少约17000s(约6天)。请注意,实验中没有考虑人和环境因素的限制。


表三:连续警报的经验评估

【研究池】从日志到故事:以人为中心的数据挖掘技术用于网络威胁情报



6.讨论

A.研究贡献


从人机交互的角度来讨论安全警报处理方面的改进,主要有两个标准:(1)完整性和(2)可理解性。


完整性:安全工程报告中的信息不足以进行及时推断,SOC成员必须从不同来源手动收集补充数据。例如,缺少有关风险严重性(中等)和设备内部位置(IT开发人员组)的信息。此外,行动建议(检查系统和图像)和人员指定(管理员Tommy)被证明有助于及时和协调的反应。利用本地和全球知识库,旨在为事件提供丰富和全面的背景。模板是使用内部信息和外部来源填写的。虽然提出的模型可以自动提取相关知识,但安全工程报告仍需要人工参与。此外,对网络安全的解释在很大程度上依赖于分析经验和知识(在哪里以及如何搜索相关信息?),这给本已稀缺的网络安全资源带来了压力。


可理解性:叙述技术在网络风险管理领域的应用旨在减少网络安全分析人员在处理大量日志时的认知负荷。事实证明,以讲故事的方式生成的报告更具可读性,更易于理解,并有效地加快了对潜在威胁的反应(时间因素在网络安全领域至关重要)。此外,报告的人性化格式有助于更多观众参与到网络形势的认识(目前仅限于安全专业人员)。例如,被感染设备的用户可以收到讲故事的报告,并立即洞察网络情况,从而防止问题进一步升级。尽管缺乏网络安全领域的专业知识,但叙述格式有助于理解。最后,能够自动提供不同详细程度的报告,以满足各种信息需求和预期目标(即安全操作中心的低级别,高层管理人员的高级别)。


总结:通过对生成的故事和安全工程报告的比较,我们可以得出以下结论:


1.讲故事的报告是完全自动生成的,减轻了网络安全资源的负担;

2.包含在生成故事中的隐含的知识(发生了什么,为什么),分析师必须手动调查;

3.具有无法发送到第三方进行进一步处理的私有信息的日志文件受到保护;


针对目前存在的局限性,本文只对恶意软件分类进行了方法论证,通过提供本地和全球知识库中的补充资源,该模型可以很容易地适应其他类型的事件。此外,由于在故事设计中没有用于安全警报的丰富报告,我们无法与建议的故事模型进行直接比较。因此,基于大学SOC团队的经验观察,叙事形式的报告已被假定为有利于减少认知工作量。


就未来的发展方向而言,建议的解决方案可以扩展到教育部门以外。目前,网络威胁在各个组织中都很常见。无论在哪个行业,叙事风格的整体优势都有助于员工理解。此外,还可以提供大规模数据上的其他验证指标(可读性评分、用户调查、响应时间等),以进一步确认该方法的好处。



七.结论

与安全工程报告相比,该模型生成的报告被证明更完整,更易于SOC团队理解。结果,信息消化和理解的认知努力显著减少。此外,由于人性化的形式,具有不同专业水平的工作人员能够参与到网络风险管理过程。


附:报告原文获取请添加福韵君微信,并备注报告名称。
【研究池】从日志到故事:以人为中心的数据挖掘技术用于网络威胁情报

参考文献:本文所有参考文献说明见原文。
论文来源:IIEEE Acess 2020年第8卷
封面来源:报告原文


更多精彩内容,击左下角阅读原文

网|络|情|报|研|究


1

1

我就知道你“ 在看

以上是关于研究池从日志到故事:以人为中心的数据挖掘技术用于网络威胁情报的主要内容,如果未能解决你的问题,请参考以下文章

论述《区块链智能合约的合同效力认定》去中心化金融的钞能力赛道

论述《区块链智能合约的合同效力认定》去中心化金融的钞能力赛道

论述《区块链智能合约的合同效力认定》去中心化金融的钞能力赛道

论述《区块链智能合约的合同效力认定》去中心化金融的钞能力赛道

npj: 卷积神经网络计算—精确识别纳米级有序结构

学术论文信息中心网中移动性缓存策略研究