数据挖掘要当心“雷区”

Posted THINKTANK新智囊

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了数据挖掘要当心“雷区”相关的知识,希望对你有一定的参考价值。

有许多创业公司都是依靠数据挖掘获得最初的流量,如果未经允许的“数据挖掘”最终被确定为违法,那么,这类公司就根本发展不起来了。


本月这两个题目中的曲折,起初并没有十分在意。只是由于其中的主角都蛮有来历,才稍稍关注了一下;结果发现这两个故事分明会一直演绎下去,恐怕还会闹出点大动静来;因此也就持续关注。



网站上的数据究竟属于谁?


30多年前的1986年,美国国会通过了一项简称CFAA的法案(ComputerFraud and Abuse Act,“计算机欺诈与滥用法案”),确定未经允许进入他人计算机违法。这个旨在限制黑客活动的法案,当时就引发了很大争议;因为根据这个法案,政府机构也不可以随意介入个人和企业的计算系统了。



对于这种市场推广手段,Facebook当然无法容忍(向自己的客户群推广其他社交网站)。于是,就向Power Venture发出了一封叫作“禁制令”(cease and desist)的法律文书,并将Power Venture告上了法庭;称这家公司违反了CFAA法案。Power Venture 则认为,只要有用户的同意就足够了,并不需要Facebook另行批准。但是,第九巡回法庭的法官站到了Facebook一边。在判决书中,法官明确指出:当Facebook发出禁制令之后,Power Venture就不再获得授权进入Facebook的计算机(系统),因此也就触犯了CFAA法令。


数据挖掘要当心“雷区”

2016年,Facebook向Power Venture发出了一封叫作“禁制令”的法律文书,并将其告上了法庭


今年早些时候,类似的程序再次上演了一轮。一方还是一家名不见经传的小公司hiQ Lab,另一方则是微软旗下大名鼎鼎的领英(LinkedIn)。不过,情况还是有些不同,因为hiQ是曾经获得了领英许可的合作伙伴。hiQ成立于2012年,商业模式是 data scraping。在过去,与scrap相关的常用词组是废金属(scrap mental),指的自然是已经报废后回收的材料;而data scaping则是以程序读取现有数据,重新加以分析,形成产品,再提供给用户。


hiQ先是找到领英、并获得了许可使用领英网站上的客户数据,然后结合自己的数据挖掘技术,做出了两款产品。一个是Keeper,用来告诉雇主哪些员工离职风险最大;另一个叫Skill Mapper, 对于员工个人的工作技能提供综合分析报告。目前,投资机构Capital One和eBay都是这家公司的客户。目前,这两个产品(根据法官的判决)仍然在领英的网站上推广。


到了这项合作进行了5年之后的2017年,领英改变了主意(这家公司自己也开发出了一款类似Skill Mapper的工具)。5月23日,领英也给hiQ发出了一道 “禁制令”(cease and desist),要求其立即停止使用自己在网络上的公开数据。已经进行过两轮融资(1450万美元)、有23名全职员工的hiQ当然很清楚,如果照领英的要求行事,这家公司的产品就成了无本之木,只能宣布破产。于是,便在6月7日将领英告上了法庭,要求法院裁定,自己有权使用领英网站上发布的个人数据。


被告上法庭的领英怒不可遏,反诉hiQ在收到禁制令后,继续使用自己的数据违法;hiQ则在法庭证词中特别说明,领英与这家公司的关系“一直没有问题”,直到微软收购了领英之后,这个从前的合作伙伴才以这种“妨碍竞争”的方式,推出自己的产品。陈法官似乎也觉得这个案子是一个法理复杂、影响深远的烫手山芋,于是就在8月14日做出了一个技术性判决。一方面,他认定这场官司要继续打下去;另一方面,对于领英的禁制令,又下了一道法院禁制令——在最终判决做出之前,领英应允许hiQ继续使用其数据。


陈法官的审慎有其法理背景。比如,康奈尔大学教授James Grimmelmann认为,有许多的小公司,都是依靠这种方法获得最初的流量,如果未经允许的“数据挖掘”最终被确定为违法。那么,这类公司就根本发展不起来了。乔治敦大学法学院教授Orin Kerr对于已经成为加州判例的2016年的裁定表示担忧。他认为,一家公共网站不允许其他个人或公司接触其信息,恰恰与这类公司的公共网站的特征相悖。比如,CNN可以向竞争对手要求,不得进入cnn.com使用其信息,而这又会让使用任何一个公共网站成为违法行为。也就是说,如果一家公司选择成为一个提供大众服务的网站,实际就是允许用户和其他第三方使用其数据。


站在初创企业一方的还不止这两位教授,最近哈佛大学宪法教授劳伦斯·特拉布宣布,加入hiQ的律师团。这个特拉布可是一位大人物。他出生在上海,在法租界长大,父亲是波兰裔犹太人,被同行公认为是宪法学的泰斗级人物。后来成为芝加哥大学法学院宪法学教授的奥马巴总统曾为他做过两年的研究助理,最高法院法官约翰·罗伯茨和美国参议员泰德·克鲁茨,也都是他教过的法学院学生。


不过,领英应该还是信心满满,这恐怕是因为这家公司提出上诉的法院,正是裁定PowerVenture违法的第九巡回法院。顺便说,Power Venture也已经向美国最高法院提出上诉,目前还没有接到审理此案的回复。



特斯拉与通用汽车的跷跷板……


今年以来,特斯拉的股价增长了60%以上(标准普尔指数同期上涨了14%左右)。于是,二十多天前,一个朋友下决心买进特斯拉股票(TSLA);期望这个大热股在持续升温的股市中继续表现出众。不过,交易完成两天之后他就后悔了。TSLA一路跌了下去。虽然最近一周呈跌跌撞撞中回转的姿态,但还是差一点没有涨回到原来的价格;下一步的方向还有点看不清楚。相形之下,纳斯达克指数在这两周里可是屡创历史新高的局面。


也就在这两周里,通用汽车的股票大涨了13.4%。一个此消彼长,通用汽车的市值反超特斯拉。到10月17日收盘时,特斯拉的市值以593.70亿美元报收;通用汽车市值则是653.55亿美元。不过,2016年全年通用汽车销售了1000万台各类汽车(稍逊于大众和丰田),而特斯拉在同期只有区区76,230辆车的业绩。此外,通用汽车去年盈利92.68亿美元;特斯拉则是亏损7.73亿美元。以此而论,特斯拉似乎依然是“牛犊子”,市场对它另眼看待。


10月2日,特斯拉宣布在三季度共生产了260辆Model 3汽车,远低于CEO马斯克原先发布的三季度达到1500辆产量的目标。与特斯拉在Model 3首发日发布的12月周产量将达到5000辆的预测相比,更是差距甚远。特斯拉并没有对原因做出具体解释,只是说“与供应有关”。这一下子又引起了许多猜测——问题究竟出在零件上,还是电池上。两周之后,《纽约时报》报道说,由于Model 3采用了与特斯拉的前两款车不同的材料,焊接工艺似乎需要进一步优化。


数据挖掘要当心“雷区”

特斯拉宣布在三季度共生产了260辆Model 3汽车,远低于CEO马斯克原先发布的三季度达到1500辆产量的目标


10月第二周,小城圣何塞的当地报纸《水星报》爆料说,特斯拉将要解雇几百名员工。CNBC后来获得消息说,这次解雇与绩效表现毫无关系,可能是为了压缩开支。财经杂志《Barron’s》的编辑Emily Barry说,如果摊上其他公司,这几件事就足以让股票直线下跌了。但牛气十足的特斯拉粉丝,却只是懒洋洋地“打了个哈欠”。


过去两周,评级机构纷纷将通用汽车的股票提高为买入,恐怕也与电动车有关。通用汽车9月早些时候宣布,将在未来18个月内,新推出两款电动车;并说这只是公司“大计划”的一个起点——到2023年,至少要推出20款电动车。去年12月,通用汽车就推出了电动车雪佛兰Bolt,价位与特斯拉的Model 3相当,上市节奏却跑到了Model 3的前面。另外,通用汽车的销售在9月也表现强劲,比去年同期增长了11.9%,其中卡车销售提振了21.9%。


就在同一周,吉利旗下的沃尔沃也高调加入这场混战;还打出了令人眼花缭乱的组合拳。沃尔沃宣布,已将其Polestar品牌设立为一个独立的下属公司,聚焦高性能电动车;并计划在未来两年内推出三个车型。其中计划在2019年下半年推出的第二个车型,将与特斯拉的Model3直接竞争。同时,沃尔沃表示,将改汽车销售为收取月订制费的“租用”——月租费中包括保险和保养费用;并提供在周末和假日使用大型SUV的方案。这家公司的COO古德曼说,“我们认为,租车就是未来。我们相信,Polestar的租用模式和服务,将会和车本身一样成为Polestar 品牌的标志。


对于这一波似乎将影响电动车发展未来格局的消长,CNBC的Mad Money的主持人Jim Cramer认为,这可能是一个重要标志:市场可能会以全新的视角重新评估通用汽车的增长前景,并可能导致这家公司股票重新估值和基础投资人的更替。不过,力挺特斯拉的还是大有人在,除了给现金流偏紧的马斯克“雪中送炭”的马化腾之外。还有一位名叫亚历山大·波特的分析师。他不仅坚定地重申特斯拉股票386美元的目标价,还公开表示说特斯拉根本不需要担心其他中国品牌。因为“没有人能(在中国市场上)与特斯拉竞争”。


数据挖掘要当心“雷区”

电动汽车以其绿色低碳、耗能低、价格便宜、经济实惠等属性,获得众多消费者的追捧


无论是电动车发展5~10年后的格局,还是“大技术公司”(Big Tech)的垄断地位,都是即将展开、演化,并对未来产生重要影响的大题目。拭目以待,恐怕还是过于保守的态度,“选边站”应该是消费者的权力。笔者在这里表明一下态度:希望电动车市场群雄逐鹿,期待HiQ赢了这场官司。市场原本就该是丛林。


数据挖掘要当心“雷区”





【部分文章和配图来源于网络,如有侵权,请随时后台小编哈!ˋ(°▽°)ノ】


以上是关于数据挖掘要当心“雷区”的主要内容,如果未能解决你的问题,请参考以下文章

数据可视化:警告!警告!您已进入雷区

上个月成功入职数据分析岗,分享一些经验和雷区!

上个月成功入职数据分析岗,分享一些经验和雷区!

亚马逊商业智能科学家:当心你的数据会说谎,不要做数据骗子

HTTPS≠安全,互联网金融产品要当心

5分钟了解MySQL5.7的Online DDL雷区