风声鹤唳的大数据圈，又有多少理解了数据安全的底线？

Posted 2021-04-26 与数据同行

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了风声鹤唳的大数据圈，又有多少理解了数据安全的底线？相关的知识，希望对你有一定的参考价值。

这是傅一平的第300篇原创

个人微信：fuyipingmnb

最近的大数据行业，风声鹤唳。

最开始是杭州魔蝎科技公司，涉嫌侵犯公民个人信息，多名员工被杭州警方抓获，接着是快钱支付被调查，再接着是公信宝传出消息，公司门口被贴了封条，然后，又传出XX征信协助调查的消息......

“整个行业都快抓没了。 ”多位数据行业从业者表示，他们已经基本停工观望。接近监管的知情人士透露，几十家大数据公司已进入调查名单，“这只是前戏”。

数据行业，可能面临诞生以来最艰难的时刻……

有人会质疑，为什么数据行业的问题总是那么多？难道就不能诚信经营？

这句话其实有毛病，现在利用数据最会赚钱的公司基本都是合法经营，我给你列一列2019年大数据企业排名前50强。

风声鹤唳的大数据圈，又有多少理解了数据安全的底线？

再来看看前三的商业模式（狭义理解）：

华为：技术顶尖，华为云（包括大数据平台，从采集、处理、挖掘、治理到可视化，下同）。

阿里：依托电商业务拥有了顶级流量，依托蚂蚁金服拥有金融牌照，数据变现最大的商业模式数字广告与金融风控自然水到渠成，而其所有的数据都在体内循环，不大会有数据外泄的风险，当然还有后起之秀阿里云。

腾讯：腾讯依托社交也拥有顶级流量，数字广告仍是是其最大的利润来源之一，还有腾讯云。

事实上，当前大数据规模化变现最主要的模式，就是云计算（包括大数据）、数字广告、金融风控。

但这些赚钱的领域进入门槛都很高，做广告你要有流量，做平台你要有技术，做风控你要有牌照。虽然大数据属于新兴产业，但对于大多数公司来讲，杀进来的时候，其实存量的都已经是红海了，对于云来说甚至还不怎么赚钱。

产业互联网是蓝海，各个垂直行业都有诉求，但这个市场的培育很慢，愿意付钱的少，想进来的玩家还那么多，就拿智慧交通来讲吧，你要在这个行业有竞争力，没有强大的技术团队和足够的耐心，赚不到钱。

既然没有流量，没有技术，没有牌照，也等不及产业互联网，那就为上游的企业提供最直接的数据吧，但数据这种特殊的商品跟传统商品还不太一样，特别容易出问题。

为什么？

首先，当前关于数据的所有权、使用权、隐私权等等权利的归属还不太明晰，即使拿数据所有权来说，原始数据的所有权和加工过的数据所有权就有点分不太清楚，比如边界在哪里。

淘宝诉美景的生意参谋不正当竞争案虽然胜诉，但法院在判定的时候，可没有说淘宝拥有生意参谋原始数据的所有权，只有使用权，即使是生意参谋这个产品，也仅拥有竞争性财产权益，但对于财产所有权暂时无法确定。

其次，中国个人信息保护的相关法律法规还不完善，虽然《网络安全法》《民法总则》等法律规定了侵权者的民事责任，《刑法》及相关司法解释规定了侵犯公民个人信息罪，作为推荐性国标的《信息安全技术个人信息安全规范》也对个人数据保护提供了执法的标准，但由于中国没有针对个人信息违法行为的行政处罚等前置程序，直接从民事责任过渡到刑事责任，难以形成执法合力。

“要么没事、要么坐牢”的现状让很多人铤而走险，现在每当数据安全事件发生，新闻报道就会铺天盖地，显得非常突兀，说明了一定的问题。

值得庆幸的是，《个人信息保护法》、《数据安全法》已经纳入十三届全国人大常委会立法规范的第一类项目，最近风口浪尖的爬虫也会受到即将出台的《爬虫法》的约束。

最后，数据的可复制性特点让黑市数据交易变得比较容易，犯罪成本也低，但执法追踪却比较困难，破数据类案件跟一般刑事案件所需要的专业技能也不太一样。

根据笔者的理解，当前爆发的数据类案件主要包括三大类别：数据来源合规问题、数据使用合法问题以及个人隐私侵犯问题，下面就来谈谈自己的看法。

希望大家通过这篇文章，能比较清晰的理解何谓数据的“可为和不可为”，现在很多看似合法的东西，深究起来，其实是游走在边缘的，达摩克里斯之剑某种程度上，是悬在每个数据从业者特别是数据变现者的头上的，当然笔者也不例外。

一、数据来源合规问题

『网络安全法』第四十一条规定：“网络运营者收集、使用个人信息，应当遵循合法、正当、必要的原则，公开收集、使用规则，明示收集、使用信息的目的、方式和范围，并经被收集者同意...”

就是必须在提前告知收集的方式、范围、目的，并经过用户授权或同意后，才能采集使用，也就是我们常见的各种网站与 App 的用户协议中关于信息收集的部分。

比如2018年数据堂非法交易数据案件，其数据源头来自于中国联通，中国联通经用户授权获得个人信息，但其合作商中的“内鬼”员工私自窃取信息再卖出去，数据堂人员购得这些信息，明知来源非法却依然进行加工和交易，最后涉案的人员获刑一年六个月至三年不等，数据堂为此还关停了营销、金融两条业务线，教训是很深的。

以上明着交易数据是否违法的判定还是比较清晰的，但变换一下形式就不一定了，比如最近很火的爬虫。

一般认为爬虫能爬取的数据都是公开的，有什么问题？

但问题恰恰在这里，如果未经用户同意，通过爬虫获得的个人信息数据也是有问题的，就是说，你能爬到个人信息并不代表你就可以拥有它，如果你再把爬来的用户个人信息做营销或者转卖它人，那更是罪上加罪，很多人并没有意识到这一点，这次杭州魔蝎科技公司据说就是货起爬虫催收类业务。

反过来讲，任何企业在寻求外部数据时，一定要多一个心眼，务必问清楚这个数据的来源，如果在明知黑数据的情况下坚持使用就会存在连带责任。

二、数据合法使用问题

主要涉及三种数据违法使用行为：出售个人信息、超出约定的使用及不正当商业行为。

1、出售个人信息

关于出售个人信息，千万不要做，是法律特别指出禁止的，根据《最高人民法院最高人民检察院关于办理侵犯公民个人信息刑事案件适用法律若干问题的解释》第五条规定，对“情节严重”的解释：

（1）非法获取、出售或者提供行踪轨迹信息、通信内容、征信信息、财产信息五十条以上的；

（2）非法获取、出售或者提供住宿信息、通信记录、健康生理信息、交易信息等其他可能影响人身、财产安全的公民个人信息五百条以上的；

（3）非法获取、出售或者提供第三项、第四项规定以外的公民个人信息五千条以上的便构成“侵犯公民个人信息罪”所要求的“情节严重”。

此外，未经被收集者同意，即使是将合法收集的公民个人信息向他人提供的，也属于刑法第二百五十三条之一规定的“提供公民个人信息”，可能构成犯罪。

2、超出约定的使用

第一种情况是对于收集的数据，没有遵循之前的使用目的约定，比如用户协议上说只是分析用户行为，帮助提高产品体验，结果变成了出售用户画像数据。

比如运营商者在征得用户同意情况下可以为第三方提供个人身份验真服务，但如果第三方缓存了这份从运营商获得的验真数据，并挪作它用，实际上就属于超出约定使用，原则上是不允许的。

假如狠一点售卖给其他人，就属于出售个人信息的范畴了，现在很多数据代理公司存在缓存数据挪作它用的行为，这是很危险的。

而对当前拥有用户合法授权的数据拥有者也存在两难抉择，为了拓展业务其需要发展代理商，但代理商的不合规数据使用又限制了其对外拓展业务的决心，这几年大数据变现比较艰难，也有这方面的因素。

以后数据合作双方签署“免责条款”或者“承诺书”会成为标配：“XX公司在以往经营活动中，无违法违规记录，没有因数据归属、采集、使用等问题发生过法律纠纷或接受过行政处罚。”

在承诺书的最后，还得加上，如果违反了这些承诺，所有法律责任都由XX公司承担，这个时候，诚信经营就非常重要了。

第二种是对于三重授权原则的破坏，何谓三重授权，就是“用户授权”+“平台授权”+“用户授权”，开放平台方直接收集、使用用户数据需获得用户授权，第三方开发者通过开放平台Open API接口间接获得用户数据，需获得用户授权和平台方授权。

需要注意的是，该原则之所以叫做“三重授权”，意味着“用户授权+平台授权+用户授权”需同时满足，缺少任何一方授权，都是违反“三重授权原则”。

2016年抖音先后与QQ及微信等开放平台通过Open API进行合作，以便用户以QQ或微信账号登录抖音，2019年3月爆发了“头腾大战”，腾讯以抖音和多闪的不正当竞争侵犯用户合法权益为由，向法院提起诉讼并申请行为禁令。

腾讯认为，抖音擅自将腾讯开放平台提供给抖音的账号授权登录服务、来源于开放平台的微信/QQ头像和昵称转而提供给未获得腾讯授权的多闪，这是不合法和不正当的。法院最后的判决就是以三重授权为依据，认为多闪未获得腾讯开放平台的授权，也未获得用户的二次授权，违背了开放平台领域网络经营者应当遵守的商业道德，存在构成不正当竞争的较大可能。

同样，闹得沸沸扬扬的Facebook"数据门"事件，也是起于在未经用户同意下，擅自将Facebook的用户信息提供给剑桥分析公司进行分析所致，当前Facebook面临FTC（美国联邦贸易委员会）50亿美元的巨额罚款，Facebook"数据门"对世界的影响也是深远的。

回到个人，如果你发现自己的信息在多个平台被共享，就要多一个心眼，思考下有没有授权给过这些平台，如果没有，这些平台信息的互通就存在违法之嫌。这方面，阿里做的是很严谨的，你去读其每个平台的用户协议就知道了，肯定是让你授权相关方平台可以使用你的信息等等。

第三种情况，是有知识产权、著作权的作品，可能会允许你下载或引用，但明显标注了使用范围，比如不能转载、不能用于商业行为等，更不能去盗用，这些都是有法律明文保护，所以要注意使用。

数据的可复制性及难以追踪的特点让脱离母体的数据太容易裸奔，各种超出约定使用的行为暗流涌动，此次洗牌后，数据合作双方的门槛会进一步变高，规范性也会得到加强，而三重授权是需要遵循的统一原则，长远来讲，这对于整个产业的发展有利。

3、不正当商业行为

如果将竞品公司的数据，作为自己公司的商业目的，这就可能存在构成不正当商业竞争，或者是违反知识产权保护，这种情况在目前涉及爬虫的商业诉讼案中比较常见，而且存在较大的争议。

2017年，大众点评就百度利用爬虫技术手段抓取，并在百度产品中大量展示大众点评上的点评信息，以不正当竞争为由将百度告上法庭，法院一方面认为百度的行为丰富了消费者的选择，具有积极的效果，另一方面大众点评对点评信息的获取付出了巨大的劳动，具有可获得法律保护的权利，最终，法院确立了信息使用规则应当遵循“最少、必要”的原则，结合以上，法院认为百度通过搜索技术抓取并大量全文展示来自大众点评网的信息，已经超出了必要的限度，构成不正当竞争。

但2017年美国的hiQ诉LinkedIn案却倒过来了，LinkedIn是职业社交领域最领先的平台，hiQ是一家人力资源分析公司，其商业模式完全依赖于通过爬虫获取LinkedIn用户的公开档案信息来进行分析，并将处理结果出售给企业，在对hiQ爬虫行为的长期忍耐之后，LinkedIn用技术手段阻止hiQ爬虫继续获取LinkedIn用户的公开信息，hiQ因此向法院起诉申请颁布禁止令，法院最终倾向选择支持hiQ，主要考虑到LinkedIn在相关市场的领先地位，其采取的措施违背了竞争法精神。

大众点评案和LinkedIn案的共同关键问题在于，对网站上用户公开提供信息的信息如何界定使用规则，中国法院在大众点评网案中较为注重对于个体竞争者在平台数据累计过程中付出的辛勤劳动，从而认可用户数据作为其宝贵的竞争资源，应当获得竞争法层面的保护，而美国法院则更为注重对于信息自由流通对不同市场中的繁荣竞争的重要性。

笔者觉得总体原则应该以是否有利于整个产业发展为判断依据，但这个尺度却非常不容易把握，企业为数据采集加工到底付出了多少，企业凭借其垄断地位阻碍了信息流通的影响有多大，其实都是很难量化的。

三、个人隐私侵犯问题

前面说了，诸如BAT基于自己的业务模式可以让数据在体内循环，一般不存在数据来源不合规或不当竞争等问题，但还是有可能触犯用户隐私权。

中国cookie隐私第一案“朱烨诉百度案”回避了cookie信息是否属于个人信息的判定，而是将主要论证精力集中在隐私权及侵权行为的分析上，起诉人朱烨认为百度通过cookie追踪其搜索的关键词并进行广告投放侵害了其隐私权。

法院一审认为百度收集、利用它人隐私进行商业活动的行为并非cookie技术的必然结果，判定百度毫无疑问侵犯了朱烨的隐私权；而二审却认为cookie信息的“个人识别性”无法充分认证，可能造成过于宽泛的个人隐私范围划定，从而驳回了朱烨的全部诉讼请求。

在立法实践中，各国都对cookie信息属于个人隐私信息采取了肯定性的积极回应，无论是严格保护cookie信息的欧盟，还是倡导自律的美国，均认为cookie属于个人信息的范畴，从趋势的角度看，对于个人隐私信息的保护会越来越严格，cookie问题迟早要解决。

通过以上的案例剖析，相信你会对数据的违规使用有更深入的理解，正如智慧的巴菲特所告诫的一样：“考虑到人可以从错误中学习，那么，最好的事情就是从别人的错误中学习。”

笔者写这篇文章的目的也是如此，希望你能转发到朋友圈，因为即便是笔者，在写这篇文章之前，有些概念还是比较模糊的，不知道自己不知道，对于大数据圈很可怕。

最后推荐一本书《大数据战争》，文中的很多案例都直接引用于此，大家有空可以读一读，同时申明，以上所有内容仅是个人分析，可能存在错误之处，不能作为任何依据，具体以相关法律法规为准。

如果你觉得这篇文章有用，欢迎推荐和转发，如果你有独到的见解和意见，欢迎到我的知识星球进行探讨。

完

作者：傅一平（微信号：fuyipingmnb）

我的历史文章（点击链接即可阅读）

一、数据中台

二、个人成长

三、数据挖掘

四、人工智能

五、数据平台

六、数据产品

七、数据变现

八、数据分析

九、报表取数

十、资产管理

十一、数据运营

十二、数据安全

十三、数据思维

十四、读书笔记

十五、杂七杂八

以上是关于风声鹤唳的大数据圈，又有多少理解了数据安全的底线？的主要内容，如果未能解决你的问题，请参考以下文章

脱离JVM? Hadoop生态圈的挣扎与演化

观察原创 | 大数据公司接连被查，爬虫技术该不该背锅？

深入MaxCompute理解数据运算和用户的大脑：基于代价的优化器

道方图说 | 技术无罪？爬虫技术使用行为的法律风险你知多少？

劝退背后。

劝退背后。