使用大量零数据点击欺诈检测
Posted
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了使用大量零数据点击欺诈检测相关的知识,希望对你有一定的参考价值。
我有一些广告发布者的数据集。出版商每次点击广告都可以赚钱。数据集由发布者列表以及相应的点击次数和他们造成的交易次数组成。问题在于出版商是否作弊并点击它自己的广告以获得更多的钱。但是这些发布者中的一些总点击次数非常小(低于10),因此交易次数为0。
我的问题是我应该怎么处理这些零数据?它们实际上破坏了我的高斯数据分布。我该怎么办?从我的数据集中删除它们?有没有统计方法来做这样的事情?
顺便说一下,我对数据分析很陌生,如果答案很明显,请原谅我,但我无法在网上找到答案。
答案
删除零
>>> x = [0,2,0,5,0,6,77,8,9]
>>> list(filter((0).__ne__, x))
[2, 5, 6, 77, 8, 9]
高斯分布的形状会发生变化。
以上是关于使用大量零数据点击欺诈检测的主要内容,如果未能解决你的问题,请参考以下文章