如何用机器学习定位账户冒用问题

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了如何用机器学习定位账户冒用问题相关的知识,希望对你有一定的参考价值。

  对于一个互联网站点,这其实是一个挺平常的问题,因为目前“撞库”的发生。我们收集的数据主要还是来源于如下数据:

 三层数据:IP地址

 四层数据:TCP初始端口、TCP初始序列号(不同系统可能存在一些实现上的差异)、滑动窗口大小

 七层数据:用户浏览器指纹数据,如UserAgent等能从一定角度体现用户浏览器特征的数据,比如Chrome、Firefox、Safari等就有所不同

 应用系统日志:获取用户浏览页面分类信息、页面转换序列及相关时间等等。


 将一段时间的上述历史数据(设定窗口,每一项可作为一个维度)通过一定的函数转换最终进行归一化处理(Normalization,归一化也可对不同维度进行加权),然后通过本次浏览情况判断是否是出自同一用户,如果不是则应发送响应通知原用户,可能出现冒用情况。


 判断的方法可以使用简单的余弦夹角、马尔科夫或距离关系等。形式化的描述就暂不给出了。

以上是关于如何用机器学习定位账户冒用问题的主要内容,如果未能解决你的问题,请参考以下文章

如何用Python实现常见机器学习算法-1

如何用Python实现常见机器学习算法-2

如何用 Python 构建机器学习模型?

如何用机器学习强化市场营销活动。

机器学习工作流程第一步:如何用Python做数据准备?

如何用Python实现常见机器学习算法-3