大数据机器学习与信息安全

Posted 2020-10-08

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了大数据机器学习与信息安全相关的知识，希望对你有一定的参考价值。

从机器学习的角度来看，大数据不过是训练各类参数、概率分布模型的输入。合适的、经过筛选的、符合事物客观特征描述的大数据方才是好的数据，故在目前这个所谓“泛大数据时代”，数据确实是最为精贵的资源，但并不是所有数据都是，我们只能去芜存菁方可认清数据的本质以及事物（包括人类自身）的本质。因此对于数据的处理反而变成了最最重要的问题。

从经典定义来看，机器学习对于特性输出的提高，其最重要关键点不在算法（当然，好的算法也是非常重要的基础，是成功的必要条件，是减少开销、尽量少的消耗资源的核心）而是在于是否占有更大、更好的数据，从而训练出更为出色的模型，其输出主要是各类参数，至少在“弱人工智能时代”，其价值也是在于这些参数。因为人工智能的定义更为宽泛，它包含一些不多的、不主要依赖于数据学习的方法，AI这个大概念不是我们讨论的要点。以神经网络为例，定理告诉我们对于任何连续函数，可以以任意精度去逼近，先决条件是隐层的神经元越多越好。

对于机器学习而言，最重要目标是对客观数据进行分类，其它任务已经变得不太重要了。无论我们谈到的支持向量机、神经网络、聚类等等无不是基本围绕分类这个主题进行的！

以我的观点来看，信息安全本质是提供可信、可靠的服务和数据（注意，这个定义的修饰词不仅仅是可信，还有可靠，存在一定区别，因为我们不能忽视DOS/DDOS攻击，这会造成服务的不可靠而不是不可信，这个观点与吴瀚清略有所区别）。但目前我们可能还是无法直接运用机器学习的方法来规避DDOS攻击，因为无论在网络层还是应用层，抵御网络/应用的DDOS攻击还是传统方法，即引流/WAF，虽然能从这些数据中学习到攻击数据的特征，但一旦错误地丢弃一个网络数据包就可能造成用户的投诉，而且可能你还没有学习完，攻击已经结束、服务已经停止，所以我们的着眼点还是在于机器学习在可信这个环节上。

本文出自 “13335387” 博客，谢绝转载！

以上是关于大数据机器学习与信息安全的主要内容，如果未能解决你的问题，请参考以下文章

ng机器学习视频笔记（十五） ——大数据机器学习(随机梯度下降与map reduce)

大数据机器学习的职业发展与薪资状况

大数据时代的信息安全

探讨使用UML设计机器学习特征工程与深度学习建模等大数据分析软件

2017-2018-1 20155329 《信息安全系统设计基础》第13周学习总结

2019-2020-1 20191232《信息安全专业导论》第五周学习总结