新技术加速隐私暴露,如何应对?(二)

2019-10-17 16:37:14 浏览数 (1)

来源:一个数据玩家的自我修养(Data_Player)

数据猿官网 | www.datayuan.cn

上一篇传送门

新技术加速隐私暴露,如何应对?(一)

二、 网络爬虫技术给隐私保护带来的挑战

网络爬虫技术并不是一个新技术,最初是搜索引擎用来抓取散落在因特网上的海量网站,解析后为用户提供搜索服务的一种技术,本质上是模拟浏览器浏览网页的行为,用程序获取网页上展示(或隐藏)的数据。Web 1.0时代,互联网上的个人信息少之又少,以门户、新闻等信息为主,爬虫低调而务实,仅仅是一个搜索引擎收集数据的工具。Web 2.0时代,随着UGC(User Generate Content)的增加,爬虫可以用来做一些群体用户行为分析了。互联网 时代,特别是互联网金融的发展,大数据供应商们绞尽脑汁,寻找一切可以判定个人信用的数据,从最早的信用卡邮箱账单,到社保、公积金、运营商通话详单,甚至通过模拟登陆网贷平台,来判断一个手机号是否曾经注册过,或者登陆B网贷平台,用其额度和利率来作为A平台的风控参考。

诚然,技术并无对错,这几年由于需求旺盛,大数据供应商如雨后春笋般遍地开花,替代数据风控模式如百花齐放般层出不穷,确实使得国内互联网企业、金融机构在大数据风控方面有了不小的发展。然而监管的滞后,让大量无牌照的大数据公司赚得盆满钵满,还把爬取到的数据通过批量出售、交换等方式获取多次利润和更多的数据。

出来混,总是要还的,通过违法方式收集数据的公司必然会受到法律的制裁,但是由于数据作为资产的特殊性,流通到黑市和暗网上的数据,却已经难以追回,因此隐私泄露,只有0次和无数次,一旦泄露,造成的危害难以想象。

关于如何使用网络爬虫技术才是合规的,近期已经有不少文章做过精彩论述,本文不再赘述。这里数据玩家主要想探讨的是,不管企业合不合规,爬虫技术到底可能带来哪些隐私泄露的风险,我们应该如何避免?这里我们分成公开数据和非公开数据两类分别讨论。

1. 公开数据

即任何人不需要登录任何账号、或登录一般账号就可以查看的数据,比如用户在各类论坛、贴吧、微博等发布的内容

大家会感觉这些数据没什么隐私,因为都是自主发布的,一般人也不会把自己的隐私信息公开发布。当然,完整的隐私信息没人会公开发布,但是由于隐私保护意识不够,社交媒体上经常见到有人晒出各种暴露隐私的信息,再加上之前介绍的大数据相关分析技术,可以很容易的复原一套完整的个人隐私信息。

我们举个栗子:

  • 小明为了在社交网络上刷存在感,所有平台的ID都是一样的,叫xiaoming0229(疑似生日get)。
  • 国庆出国去玩,小明在微博晒了自己的登机牌(姓名get)
  • 在贴吧找一个资源,小明留下了自己的邮箱:xm137xxxxxxx@qq.com(疑似手机号get)
  • 小明出差很多,有一次在知乎回答“整天出差的工作是一种什么体验”的问题时,小明晒出了一叠火车票,大部分信息都遮住了,但是身份证后四位没遮住(身份证后四位get)
  • 小明在某个地区论坛认老乡,发帖说到自己的身份证也是XXXXXX开头的(身份证前六位get)
  • 小明是某闰年2月29日出生的(ID也可以看出来),在豆瓣加入了2月29日出生的小组,并且晒出了出生年月日(身份证中间八位get)

看到这里,大家应该发现,拿到小明的姓名 身份证 手机号三要素一点难度都没有,如果小明神经再大条些,在某个羊毛论坛晒自己的借记卡没把卡号遮住,在某个社交媒体晒自己的身份证大头照有多不满意……一套完整的四要素,加上身份证照片都可以做好了。

四要素能干嘛呢?可以做的事情太多了,我们留到黑产章节再详细介绍。

大家看到这里可能认为这个案例太极端了,而且很多数据并非标准化(如登机牌、火车票的照片等)。确实这是一个极端的例子,难以大规模实施攻击,但是如果黑客有意针对一个个体进行攻击的话,完全是可以做到的。与其抱有侥幸心理认为下一个不会是你,不如提升隐私保护意识,防患于未然。

2. 非公开数据

即必须登录特定账号才能查看的数据。比如邮箱、社保、公积金、运营商官网等。

相比公开数据来说,由于需要用户授权自己的用户名、密码,大多数用户对于这类数据是相对比较谨慎的。但是由于需要获取这些数据的,一般都是金融相关的企业,用于辅助信用评估,所以当一个人有了金融需求,真的需要借钱时,往往对于隐私的谨慎就排不到第一位了。

这类爬虫最大的风险点除了获取的数据外,在于获取了用户的密码。如果非要授权,至少应该改一个临时的密码,授权之后再改回自己常用的密码,毕竟大多数人常用的密码就那几套,我们可以相信一个企业的底线,但是难以估计企业里每一个员工的素质。

另外,关于邮箱的授权,一般是用于信用卡账单管理,这是一个需要持续授权的服务,最好单独用一个邮箱来做信用卡账单邮箱授权。如果已经有常用的邮箱又懒得改,也可以用邮箱提供的来信分类功能,将特定邮件转发到特定邮箱(51信用卡已经提供了这个功能)。常用邮箱密码一旦泄露是非常麻烦的,绝大多数社交平台、甚至有些金融机构直销银行的密码,都可以通过邮箱重置。

总之,在隐私保护这件事上,建议做到以“小人”之心度“君子”之腹。

图1 邮箱来信分类功能,避免直接提供邮箱密码

三、云计算技术给隐私保护带来的挑战

云计算给互联网和金融行业带来了诸多益处,比如接入方便,压缩成本,弹性计算等等,同时也带来一系列问题,尤其是数据安全方面。由于云计算服务提供商的承载了多家企业的生产系统,如果出现故障,很容易造成大面积企业受到影响,进而造成更大面积的个人用户受到影响,如2018年8月发生的腾讯云数据丢失事件[1],虽然类似大规模数据丢失事件极少发生,但是通过搜索相关云服务商数据丢失的情况,发现非常多局部数据丢失的情况,出于对云服务的信任,多数用户并没有保存本地备份,导致数据无法找回。同样,我们有理由担心,如果发生云服务商数据泄露,造成的影响也是单个企业数据泄露所无法比拟的。

由于云计算的底层服务器,包括操作系统、组件等,都是多租户共享的,因此黑客有可能通过底层服务入侵,一旦破解,那将如入无人之境。攻击者可以通过自身安全意识不强的企业用户作为突破口,从木桶的短板进攻,使得同一云平台的其他企业用户同样危险。而且由于公有云服务的接口都暴露在公网上,使得攻击更容易进行。

更为危险的是内部人作案,如果云服务商的内部员工作案,将会导致极大规模的数据泄露,再加上不少金融机构也开始上云了,金融机构的数据如果泄露,后果不堪设想,事实上这种情况在Capital One已经发生了[2]。云服务商为了给各地用户提供低延迟的服务,会建立多个物理数据中心,不同地区的数据中心,在物理设施、人员配备、管理细则上参差不齐,也给了攻击者可乘之机。[3]

企业上云是大势所趋,遗憾的是,我们没什么办法来在这趋势中更好的保护自己的隐私,只能寄希望于上云的企业,以及云服务供应商,在技术上做好安全防护、数据加密,管理上做好权责分离。

四、移动互联网技术给隐私保护带来的挑战

1.定位数据

区别于PC互联网时代,移动互联网时代最有特点的数据就是定位数据,从原来的IP定位,已经发展到GPS定位以及运营商基站定位。人们在享受定位数据带来的便捷服务的同时,也承担着相应的风险。比如,通过提供LBS(LocationBased Service)服务的App,变换三次位置可以框定附近某个用户的位置;通过手机相机拍摄的照片Exif(ExchangeableImage File)信息,也可以获取该照片拍摄的GPS定位;更不用说用户们在社交网络上主动分享自己定位了。

定位信息仅仅泄露的是个人隐私,风险相对可控,但是结合大数据分析及可视化技术,大量用户的定位信息可能带来更大的危害,比如揭示军事机密。这并非天方夜谭,Strava是一款户外运动健身App,由于用户中有很多军人,结合他们的运动轨迹和已知军事基地的大概范围,可以挖掘非常多的信息,甚至揭露隐藏的军事基地。[4]

图2 Strava Global heatmap(图片来自https://www.iafrikan.com)

2.设备数据

除定位数据外,各类App还会收集各类设备信息,尤其是具有金融借贷属性的App,为了识别用户的还款能力和还款意愿,以及对用户是否本人进行判断时,常常收集App安装列表、通讯录、通话记录、短信等,持牌金融机构会在用户授权的前提下获取数据,并且保证数据的安全,但其他机构则未必,轻则提供数据给外包催收公司进行暴力催收,重则违法出售数据给黑产牟取暴利。

图3 设备农场(图片来自网络)

收集部分设备数据主要是用来防范黑产,比如图3这种设备农场,这一批设备的陀螺仪角度、电池电量、App版本、操作系统版本等等都是类似的,当营销活动中出现一批类似的设备时,通常是黑产来了。如果不加防范,大量的营销费用可能都进了黑产的口袋。

对于持牌金融机构的App,大家不用过于紧张,除了通讯录、通话记录、短信之外,设备数据绝大多数是去隐私化的,即无法识别用户的身份。但是有一类数据比较特殊,也容易被大家忽略,数据玩家这里重点提一提,那就是相册数据。

相册数据需要的权限比较低,读写外部存储权限即可。相册中经常保存着一些我们容易忽略的敏感信息:

  • 通过微信发送、接收的图片
  • 各类App调用摄像头拍摄过的照片
  • 人脸识别过程中产生的自拍图片、视频
  • 手机截图
  • ……

图4 相册里的秘密

这是数据玩家自己的相册,刚看了一眼,才清理过又发现了不少敏感信息,比如身份证照片,这是之前在某App做了OCR证件识别以后留下的,这个如果被别有用心的App拿去,后果难以想象。如果有人脸识别的视频就更麻烦了,拿去做个活体监测一点问题也没有。大家也可以看下自己的相册,希望没有惊喜,有的话尽快清理,不然会变成惊吓。

在安装App时一定要慎之又慎,选择可信的渠道,安装可信的App,对于非必须的授权一律禁止,必须授权才能使用的App尽量寻找替代品。

2019年8月8日,《信息安全技术移动互联网应用(App)收集个人信息基本规范(草案)》公开征求意见,明确了个人信息最少够用的原则,并且针对21类常用App可收集到的最少信息及使用要求做了规定,当用户拒绝提供最少信息之外的个人信息时,APP不得以任何理由拒绝该类型服务,同时,对外共享、转让个人信息前,APP应事先征得用户明示同意。相信对于设备数据的收集会逐渐规范起来。

五、物联网及边缘计算给隐私保护带来的挑战

2016年10月22日, Mirai病毒将数百万路由器、智能摄像头当做“肉鸡”向美国域名服务器管理机构Dyn发动大规模的DDos (分布式拒绝服务)攻击,致使美国互联网大面积瘫痪。[5]

此外还有360水滴直播事件[6], LG智能家居漏洞事件[7]等等,甚至RFID(RadioFrequency Identification)技术也会导致隐私泄露[8],物联网及边缘计算相关的安全事件频发。究其原因,主要是因为物联网和边缘计算的风险集中在设备端,多种类型、多种型号的设备处于开放的环境中,更容易被攻击,无防火墙防护,更易损耗,难以远程修复漏洞和升级补丁,更易获取用户相关隐私信息。

大家普遍认为摄像头数据泄露是带来隐私危害最大的,却忽略了路由器最为所有智能设备的入口,其安全性的重要性。如果路由器被攻破,所有家用智能设备也等于被攻破。360安全大脑通过对用户的调研显示,61.7%的用户会修改密码并设置高防护密码,而30.5%的用户会使用弱密码,还有6.8%的用户根本不去修改密码。[9]由于wifi的连接密码可能被可以共享wifi密码的App共享出去,而很多路由器的控制台通过admin/admin就可以登陆,钓鱼网站、流量劫持,黑客便可以如入无人之境。另一个被忽略的智能设备是智能音箱。正常情况下,用户唤醒音箱后,音箱才可以收集用户语音等信息,由于识别率不高或唤醒算法缺陷等,有可能智能音箱在未被唤醒的情况下,自行唤醒,从而造成隐私泄露。[10]

由于物联网、边缘计算本身还处在发展初期,自然会出现较多的安全漏洞,相信随着相关技术的完善,安全体系也能够得以加强。

六、区块链技术给隐私保护带来的挑战

本节仅针对公有链带来的隐私保护问题进行讨论。由于每个节点都能够获取全部的交易数据备份,因此每个节点进行的所有交易都是透明的。虽然通过交易地址无法关联到个体的真实身份,但是通过相关性分析,通过交易所实名注册信息、社交媒体用户自行发布的信息、IP地址等等,仍然有可能推测出账户与个体的关联。加上区块链不可篡改的特性,一旦用户的地址与真实身份被关联起来,该用户的所有交易将会大白于天下,和他有过交易的客户也难以幸免。

针对以上问题,业界目前主要有三类比较好的应对方法,环签名、同态加密与零知识证明。

其中,环签名可以在多个公钥中,隐藏自己拥有私钥的那个公钥,可以在区块链交易中隐藏交易的发起人;

同态加密是指有一种加密方法,可以允许我们对加密后的密文进行运算,其结果解密后等于明文做同样运算的结果。打个比方,有一颗钻石希望找人加工,但是又怕被加工的人掉包,可以将钻石锁在一个带手套的操作箱内,这样就可以通过手套加工钻石而又无法取出,加工完成后自己开锁即可;

零知识证明是指在不像验证者提供任何信息的前提下,是验证者相信某个论断是正确的。比如两个数学家都声称掌握了某种方法,但是为了不让对方掌握细节,又不能把具体方法披露出来,如果通过零知识证明的方法,就能够在不泄露具体方法的前提下,证明自己掌握了该方法。

不过区块链技术的应用目前还不太多,仍然以数字货币为主,随着更多应用的落地,很可能会出现新的隐私泄露问题。

七、生物特征识别技术给隐私保护带来的挑战

账号密码泄露了可以更改,手机号泄露了可以更换,设备被入侵了也可以更换,但是如果你的指纹被盗取了呢?

生物特征不同于后天产生的数据,具有普遍性、唯一性、稳健性、易采集性等多种特点。即这些生物特征是普遍存在的,且不同个体具有不易改变和容易采集等特点,这些特点导致了生物特征一旦泄露造成的危害将会更大。目前常用的生物特征识别技术包括:指纹识别、人脸识别、虹膜识别、掌静脉识别、声纹识别、姿态识别等,还包括结合多种生物特征的多模态识别。[11]

生物特征通过专用的传感器进行采集,转换为生物信号,经过特征处理和识别,完成生物特征识别,值得一提的是,为了防止被破解,常使用活体识别技术,通过生物特征在一定物理条件下的自然变化,以及按指定要求发出的特定动作,来判断用户是否本人。

然而就算是活体识别技术也并不安全,2017年的央视315晚会上,主持人就现场演示了活体识别破解的过程,只需要用户本人的照片即可,常在朋友圈晒自拍的你是否感觉到不寒而栗。

通过用户分享的照片进行攻击通常具有较强的个体针对性,即容易对单个用户展开,不易对群体用户发起。不过我们假设这样一个场景:朋友圈里有一个小程序【测测你的颜值有几分】在传播,你好奇的试了一下,小程序的服务提供方就获取了你的高清照片,甚至是一段活体影像,谁能保证这个服务商不是第二个剑桥分析呢?

由于用户的防范意识薄弱,获取照片比用户密码容易得太多,加上人脸识别技术本身不够成熟,使得黑产有机可乘。现在,基于生成式对抗网络(GAN)已经可以做到视频换脸,所以破解活体识别从一个技术问题,变成了一个成本问题,只要收益能覆盖成本,就有人会铤而走险。

图5 杨幂版小龙女

在所有生物特征中,人脸照片确实易于获取,相比之下,指纹则似乎更安全,必须获取到用户本人接触过的物品才行,难以被黑产大规模盗取。不过日本国立情报学研究所的研究人员Isao Echizen表示,即使无意中在镜头前摆出“剪刀手”也会泄露自己的指纹,而且任何人都可以轻而易举地获取它,根本不需要高科技手段的帮助。他说:“将强光集中在照片中人像的指纹,指纹数据就可以再现。”[12]不禁让人感叹,防不胜防。

未完待续……

———————————————————————

[1]段倩倩,来莎莎:“腾讯云故障致客户数据丢失遭千万索赔”,https://www.yicai.com/news/100007159.html,最后访问时间2018年10月31日

[2]InfoQ, 33 岁大学肄业女黑客“云”上窃取美银行 1.06 亿用户数据, https://www.infoq.cn/article/UjLx6OV572NIrd-bUFwt

[3]Wayne Jansen , TimothyGrance, Guidelines on Security and Privacy in Public Cloud Computing, NISTSpecial Publication 800-144, Gaithersburg, MD, 2011, pp. 10-34

[4]Kumar, “健身APP泄露军事机密,包括中国南海”,http://www.wttech.org/archives/5255

[5]360企业安全,“边缘计算安全现状:关键且脆弱”,http://www.afzhan.com/news/detail/64200.html

[6]陈菲菲,“一位92年女生致周鸿祎:别再盯着我们看了”,http://tech.sina.com.cn/i/2017-12-12/doc-ifypnsip9780385.shtml

[7]Covfefe, “智能家居设备存在漏洞,吸尘器秒变监视器”,https://www.freebuf.com/articles/terminal/152761.html

[8]刘雅辉、张铁赢、靳小龙、程学旗:大数据时代的个人隐私保护[J]. 计算机研究与发展,2015,52(1): 229-247

[9]新华网,智能设备“偷走”多少隐私?摄像头安全隐患尤其突出, http://www.xinhuanet.com/fortune/2018-11/29/c_1123781627.htm

[10]国家互联网应急中心网络安全应急技术国家工程实验室、启明星辰积极防御实验室(ADLab)、西安四叶草信息技术有限公司、北京同余科技有限公司联合发布,CNCERT:智能音箱隐私与网络安全分析报告,https://www.secrss.com/articles/11928

[11]中国电子技术标准化研究院-全国信息技术标准化技术委员会生物特征识别分技术委员会:“生物特征识别白皮书(2017版)”

[12]中国日报网,“比个“剪刀手”也能泄露指纹信息?看看技术专家怎么说”,http://tech.sina.com.cn/d/i/2017-01-13/doc-ifxzqnip1003385.shtml

——END——

0 人点赞