揭秘|“数据挖掘算法助川普大选获胜”的真相!

Posted 全球人工智能

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了揭秘|“数据挖掘算法助川普大选获胜”的真相!相关的知识,希望对你有一定的参考价值。

最新消息,AI可能在特朗普竞选中功不可没。这个周末,一个源自Facebook的官方“封杀”决定,内情迅速震惊了整个美利坚。


3月17日,Facebook宣布暂时封杀两家裙带机构。一个叫Strategic Communication Laboratories(SCL),主要为全球官方机构提供数据分析和战略决策。另一个是Cambridge Analytica,直译为剑桥分析公司,该组织以其服务对象知名。作为特朗普的数据运营团队,他们在2016年成功助力特朗普上任。FB史上最大规模数据“泄露”.

揭秘|“数据挖掘算法助川普大选获胜”的真相!

美东时间2018/3/18凌晨00:46在脸书网站看到的有关声明内容截图


在Facebook对外公布的封杀说明中,称SCL和剑桥分析公司通过关联FB登陆的第三方应用,窃取了27万Facebook用户的个人信息,并称这些信息被违规转手使用。

揭秘|“数据挖掘算法助川普大选获胜”的真相!


据估算,由于应用程序下载者还被收集了好友信息,导致泄露的数据库中拥有5000万人规模。这是Facebook史上最大规模的数据“泄露”。在卫报报道中,这个数据库中包含11个州的200万个匹配文件,所谓匹配,就是个人信息与选举登记簿匹配。而整体5000万的数据档案,占据Facebook北美活跃用户的1/3,其中差不多1/4都可能是美国大选中的选民。

揭秘|“数据挖掘算法助川普大选获胜”的真相!

图:CA公司CEO Nix

作为一名有多年专业工作经验的统计学博士,我不怀疑CA在川普胜选中起到了作用。但我一直认为,川普胜在统计学方法先进的说法经不起推敲。因为统计方法再神奇,也不能离开数据无中生有。有意义的结论只有在拥有相当数量的原始数据时方才可能。结论越细致,所要求的数据量就越大。先进的统计方法只有和足够大量的数据结合才能展现出威力,否则就是巧妇难为无米之炊。而一旦有了海量数据,经常并不需要什么格外时髦的统计学工具,也很容易发现有关结论。

所以,如果CA的数据研究真的对川普胜利起到相当的作用,那不太可能是因为他们有了什么神奇的统计方法,而多半是因为他们拥有了别人没有的大量数据。问题只在于,这些数据是如何获得的?

今天美国纽约时报与英国卫报同时发表的两篇长篇调查报告初步揭示了真相:CA公司的数据,来自于对共计五千万美国脸书用户信息的非法盗取。这次数据盗取由川普团队和俄国政府勾结完成,而这一事件之所以能够发生、并直到今天才被揭露,则源于脸书公司对用户数据安全管理高度不负责任所造成的重大疏忽——以及事情发生后的竭力隐瞒。

揭秘|“数据挖掘算法助川普大选获胜”的真相!图:支持CA公司的川普金主,华尔街大佬Mercer及其女。其女为CA公司董事会成员。

五千万(或三千万)是个极高的数字。在2016年大选中,总投票人数约为1.3亿人。川普获得的总票数其实比希拉里还少三百万,但只是因为在几个人口较多的关键州以极其微弱优势险胜才勉强上位。例如,川普在佛罗里达比希拉里多约10万票(或总票数1%),在宾夕法尼亚多5万票(或总票数0.7%),在威斯康星多2万票(或总票数0.8%),在密歇根多一万票(或总票数0.2%),可见差距之接近。完全有理由认为,如果川普团队没有拿到这批海量信息,大选的结果就会改写。

按照卫报和纽约时报的报道,这一数据盗取的具体做法是:先广泛发布广告,以“有偿心理学研究”为名,用少量金钱为奖励,诱导美国用户下载应用软件在亚马逊旗下网站“Mechanical Turk”和“Qualtrics”上参加问卷调查。在问卷调查末尾,再请求用户同意该软件查看其脸书资料。但这些用户不知道的是,他们点击“同意”之后,这一应用软件不但搜集了他们本人信息,还进一步顺藤摸瓜搜集了从他们脸书页面能看到的其所有脸书好友信息。而这些人的脸书好友则对其信息被搜集毫不知情。利用这种方法,27万名参与“问卷调查”的“种子用户”变成了特洛伊木马,导致了五千万用户信息泄露。

这种做法之所以能够得逞,来自于脸书本身的技术和管理漏洞。脸书仅仅规定,应用软件要抓取某位用户的脸书内容需要取得该用户本人的同意。但一旦获得同意,则有关软件立即可以看到该用户脸书页面上所有内容,而这些内容又包括了该用户所有好友的详细个人信息,以及他们在脸书上发帖,阅读,点赞的所有情况。看起来,脸书并未在知情同意条款上区分某位脸书用户自己发布的信息,和并非他本人发布,但是从其页面上能看到的他人所发布信息这二者的巨大不同。这一漏洞导致了海量用户信息在自己不知情的情况下泄露。

俄国政府参与这一事件可以说铁证如山。实际上,真正执行脸书数据抓取操作的是一位名叫Kogan的剑桥大学心理学系高级研究员。Kogan博士在剑桥的同事们所不知道的是,Kogan同时又是俄国彼得堡大学副教授,并从俄国政府领取项目经费,以研究“社交网络中的压力与心理健康”项目。CA公司后来用于大选的“心理学建模”方法,正是此人在剑桥大学所参与的课题组所发明。该课题组掌握有对facebook用户信息抓取并进行建模的技术。所以川普金主、华尔街大佬Mercer所支持CA公司一开始派人(所派之人正是后来对卫报爆料的Wylie)与这一课题组联系并试图建立合作关系。但该课题组负责人拒绝了这一要求。

图:俄国彼得堡大学副教授,英国剑桥大学高级研究员Kogan。

在此之后,了解有关技术的Kogan博士单独与CA接洽达成合作意向。Kogan成立了名为GSR的公司,共投入来自CA的八百万美元资金,以“学术研究”为名义开始挖掘脸书用户数据。

与俄国的联系还远远不止于此。卫报报道,在2014年7月,正在大肆挖掘脸书用户数据的CA公司开始了与俄国石油寡头公司Lukoil一系列看似莫名其妙的联络。Lukoil要求CA向他们介绍利用数据对选民进行“微观定位”的助选方法与石油业消费者的关系。并提出,有关信息会由该公司CEO本人过目。而该CEO正是与普京联系密切的Vagit Alekperov。

看看卫报拿到的CA应要求在2014年夏天发给Lukoil的一份报告就会恍然大悟。在这份报告中完全没有提及“石油业消费者”,而全部在描述从脸书抓取的有关数据特点、建模方法、以及最重要的——如何利用这批数据干扰选举。这份报告的第一页讲的就是CA公司在所参与的2007年尼日利亚大选中进行“谣言竞选”的经验——例如广泛散布“选举存在舞弊”的谣言。而报告最后一页,则正是关于“针对选民心理分类投放信息”的内容。

在这一系列事件中,脸书公司扮演了极不光彩的角色。

首先,他们很早就知道了这一大规模数据搜集行为。爆料人Wylie告诉卫报,Kogan的应用软件一开始下载海量用户数据,脸书的内部安全监控程序就已发现。但Kogan向脸书解释说这一切都是为了“学术用途”,脸书就没有再进行任何追究。

正常人容易想到,哪怕脸书无力进行追查,也应该及时向公众和美国政府告知这一大规模数据泄露事件。公众一旦知情,总有人会反省自己在脸书上所看到的世界,是否为有人盗取了自己信息后、为某种特定目的所特意构造而成。

原文:https://weibo.com/ttarticle/p/show?id=2309404218901671052061

-马上学习挑战百万年薪-

点击“阅读原文”,查看详情

以上是关于揭秘|“数据挖掘算法助川普大选获胜”的真相!的主要内容,如果未能解决你的问题,请参考以下文章

真相揭秘:网络隔离可以做到零失陷吗?

真相揭秘!Filecoin挖矿收益降低并不是一件坏事

360数科知微实验室发布反诈报告:揭秘黑灰产数据流转真相

开源人才缺口持续扩大,Linux基金会揭秘开源就业真相

小伙挖矿一夜暴富,背后的真相究竟是什么?

Java内卷真相揭秘!强烈建议阅读!