序
最近的大数据行业风声鹤唳,多家大数据服务头部企业、贷超、催收公司被查,引发行业地震,未被牵连的企业纷纷自查,其他头部公司黑稿和纠纷频出。从业者如惊弓之鸟,人人自危;普通用户纷纷叫好,同时引发对隐私保护的担忧和强监管诉求。
此刻我又想起李彦宏的那段话:
“中国人对隐私问题的态度更开放,也相对来说没那么敏感。如果他们可以用隐私换取便利、安全或者效率。在很多情况下,他们就愿意这么做。当然我们也要遵循一些原则,如果这个数据能让用户受益,他们又愿意给我们用,我们就会去使用它的。我想这就是我们能做什么和不能做什么的基本标准。” 李彦宏
其实这个观点有一定道理,因为事实上很多用户就是这么做的。当然,其中部分用户知晓互联网应用收集了部分隐私数据,但是为了继续使用其服务不得已被迫授权;更多的用户根本不清楚被收集了哪些隐私数据以及它们被用来干什么,甚至不知道隐私政策在哪、是什么。之所以这个言论激起民愤,主要还是百度的口碑近年来每况愈下所致。大家不自觉的联想到百度的负面新闻上,或者联想到国内绝大多数应用“不授权不给用”的霸王条款。
个人认为这是市场发展的一个必经阶段。互联网金融的飞速发展,与信用体系建设的进度不匹配,加上国外Zestfinance等机构证明了利用替代数据进行风控的可行性,使得大数据风控作为央行征信体系的补充,几年之内迅速发展,衍生出各类黑灰产,在《网络安全法》及两高司法解释发布之前,很多数据已经在市场上流通,数据堂等公司被立案之后,行业才逐步往合规方向发展。随后,我们看到八家准个人征信牌照变成一张,相关隐私保护法规密集出台(近期《个人金融信息(数据)保护试行办法》初稿也在征求意见了),官方数据接口(如学信等)逐渐收紧,以及最近的爬虫供应商处在风口浪尖。法规在逐渐完善,用户在基本的移动互联网应用基本需求被满足了之后,隐私保护意识也在逐渐觉醒。
而爬虫只是众多技术的冰山一角,本文希望通过对当前各类新技术(大数据、网络爬虫、云计算、移动互联网、物联网及边缘计算、区块链、生物特征识别、黑产技术等)给隐私保护带来的挑战说起,探讨企业、个人及监管机构可能的应对措施。由于内容过长,本文将分三次发布,本次发布第一部分,重点探讨大数据技术对隐私带来的挑战。
引言
根据Hootsuite和Weare social的《2019 Q3 Global Digital Statshot》,截止2019年三季度,全球网民已达到43.33亿人,互联网普及率达56%:
图1 2019年三季度全球网民人数
这意味着,全球半数以上的人口数据已经在互联网上留有记录。当然,这是非常保守的估计,随着金融科技的发展,更多的人在知情或不知情的情况下,个人信息已经被各类智能家电、公共摄像头、智能医疗器械等等采集,并且被加工后用于产品升级和精准营销。个人信息数字化的趋势已不可避免,随之而来的便是个人隐私数据的泄露愈发严重。根据Gemalto《2018上半年数据泄露水平指数报告》,2018年上半年全球数据泄露总量为45亿条,比2017年同期增加133%,值得注意的是,泄露事件的总数相比去年反而下降了,说明每次事件造成的后果更加严重。[1]尤其是还发生了Facebook-剑桥分析这样影响重大的泄露事件,给全球的数据安全行业再次敲响了警钟。
图2 FACEBOOK听证会(图片来自网络)
接下来,我们将从各类新技术的本质切入,探讨其给隐私保护带来的新挑战,以及各方的应对措施。
金融科技给隐私保护带来的挑战
一、大数据技术给隐私保护带来的挑战
在谈论具体技术之前,我们先来看看隐私的定义,早在1890年,沃伦(SamuelD.Warren)与布兰代斯(Louis D. Brandeis)在《论隐私权》一文中就提出:隐私权指公民享有的私人生活安宁与私人信息依法受到保护,不被他人非法侵扰、知悉、搜集、利用和公开的一种人格权。作为一项法律权利。其中就明确提出了“私人信息”的概念,信息即数据,因此隐私这一概念从一开始就和数据密不可分。
大数据时代,私人信息的用途越来越多,价值越来越大,因此也更容易被提供,更容易获取,更容易被分发,自然也更容易泄露。本节我们暂不考虑多样化的数据源头,仅就大数据相关技术本身对隐私保护带来的挑战进行讨论。
1. 相关性分析
相关分析是研究两个或两个以上处于同等地位的随机变量间的相关关系的统计分析方法[2]。大数据分析的一个重要特点就是着力于分析相关关系而不是因果关系,不过相关性分析和个人隐私有什么关系呢?
2006年10月,Netflix举办了一项奖金高达百万美金的大赛,公开征集电影推荐系统最佳算法,以提升现有电影推荐系统Cinematch的算法推荐成功率10%为目标,为此Netflix发布了一个训练用数据集,并提供了免责声明:为保护客户隐私,可识别单个客户的个人信息已被删除,并且所有客户ID已用随机分配的ID[sic]替代。Netflix不是网络上唯一的电影评级门户网站,其他网站还有很多,包括IMDb。个人可以在IMDb上注册和评价电影,并且可以选择匿名化自己的详情。德克萨斯州大学奥斯汀分校的研究员Arvind Narayanan和VitalyShmatikov将Netflix匿名化的训练数据库与IMDb数据库(根据用户评价日期)进行匹配[3],仅选取了50位IMDb用户的小样本,居然识别出了2位用户的具体身份[4]。
虽然Netflix已经把训练数据集的客户ID做了匿名处理,但是采用相关性分析,还是可以通过与其他数据源的匹配来识别客户,这在大数据技术普及之前是难以想象的。这类情况也直接导致了差分隐私技术的发展,后文会介绍差分隐私的相关概念。
2. 回归分析
回归分析是大数据分析技术中常用的另一种技术,主要用于预测性建模,研究的是因变量和自变量之间的关系,常用的方法有线性回归、逻辑回归等。
最经典的例子莫过于美国零售商塔吉特利用购物清单预测女性顾客是否怀孕了,明尼苏达州一家塔吉特门店被客户投诉,一位中年男子指控塔吉特将婴儿产品优惠券寄给他的女儿——一个高中生。但没多久他却来电道歉,因为女儿经他逼问后坦承自己真的怀孕了。[5]
谈论塔吉特公司的例子时,大家可能觉得事不关己,而说起Facebook-剑桥分析事件,则更有切身体会。通过一个心理测试三方小程序,以五美元为诱饵,吸引27万用户答题并且用Facebook账号授权登录,借此获取了他们的公开数据以及近五千万的好友信息,通过寻找摇摆州的部分情绪不稳定选民,对其投放广告施加影响,剑桥分析间接的操纵了大选。[6]
图3 好友之间的关系可视化
虽然很难说剑桥分析的广告到底对大选造成了多少影响,但是这个事件的真正可怕之处,在于开启了一种隐私数据滥用的全新模式,为全球的黑产提供了一个新的思路。攻击者可以通过社交网络平台提供的公开接口,以少量金钱或积分进行诱导,让用户自行提供账号相关信息。攻击者不必知道客户的具体身份,只要获取用户在平台的ID,就可以对其进行广告投放,恶意欺诈,身份伪冒等等,轻则导致个人隐私和财产受到损失,重则煽动群体立场,进而操纵各类投票、选举,甚至引发群体性事件。
3. 开源大数据平台
目前最流行的大数据开源框架Hadoop,最初是基于Google的GFS和MapReduce论文,基于服务器环境可信的前提下构建的,并未考虑整体的安全规划。尽管目前开源社区已经增加了一些访问控制、加密等安全机制,来解决不断增加的用户需求,但是仍然缺乏统一的安全体系,特别是在账号权限部分,访问控制仍然依赖于底层Linux的权限管理。而开源的特性更是导致很多隐患暴露在开放的互联网中。根据CVE(Common Vulnerabilitiesand Exposures )漏洞列表,2012年~2018年共有22个Hadoop平台漏洞[7],其中多个与数据泄露有关。而Hadoop的核心——分布式存储HDFS,由于默认配置和MongoDB类似,允许非授权用户访问,2018年1月,就有攻击者利用这些设备的漏洞,将文件夹全部删除,并且建立了一个名为“NODATA4U_SECUREYOURSHIT”的目录,预计影响了8000-10000个HDFS节点。[8]根据在线设备搜索引擎Shodan在2017年5月的报告,已有超过5120TB基于HDFS存储的数据存在泄露风险,其中美国和中国的HDFS节点最多,[9]分别为1900个和1426个。[10]
未完待续……