透过隐私合规,看数据安全技术发展趋势

2020-11-30 10:50:51 浏览数 (1)

摘要

近年来,全球掀起个人信息与隐私的立法热潮。欧盟2018实施GDPR,美国2020年实施CCPA,两部法规均对企业处理用户的数据提出更严、更具体的约束和要求;最近十月份,我国对外公布《个人信息保护法(草案)》,它全面和具体地规定了企业保护个人信息安全的各项义务,同时指出违反法规最高可面临5000万或一年度营业额5%的巨额罚款。

据Gartner预测,到2023年年底,全球超过80%的企业将面临至少一项隐私数据保护的法规(跨国企业面临多个国家或地区的多项隐私法规)。在法规监管不断强化的背景下,企业不得不重新审视数据安全与合规性的重要性与急迫性。与此同时,数据安全技术近年来发展十分迅速,创新技术不断涌现。本文将从国内外隐私合规视角切入,对数据安全技术进行梳理和总结,并对国内外数据安全技术发展趋势进行洞察和分析。

一、监管不断强化的国内外隐私法规

2018年 5月25日,欧盟正式实施《通用数据保护条例》(General Data Protection Regulation,GDPR)[1],取代了1995年起施行的《数据保护指令》。GDPR不仅保护欧盟境内的个人数据,以及境外的欧盟公民的个人数据(域外管辖权)。GDPR赋予数据主体(用户)更多的数据控制权:不仅包括原有法规的知情权、访问权、修改权等,同时增加“被遗忘权”和“可携带权”两项“特权”。被遗忘权,在一些注销账户、或者超过时间期限等场景中,用户可以行使该项权利——数据控制者(企业)收到权利请求后,允许删除与自己相关的个人数据,同时需要通知合作的第三方也删除相关的个人数据;可携带权,用户可以便携地将其个人数据从一个数据控制者处转移至另一个数据控制者处,数据控制者需要配合完成该过程。同时,GDPR规定企业保护数据需采取假名化、加密以及其他技术措施,数据泄露采取快速响应机制等等。此外,违法的代价是高昂的——最高罚款额度在2000万欧元或公司全球营业额的4%。从2018年执法到现在,多数成员国已经陆续开出多张的罚单。非常具代表性的一家大型国际互联网公司——Google在隐私保护方面已经做了不少工作,然而Google却陆续被欧盟的两个国家罚款:2019年1月份被法国处罚5000万欧元,原因是执法方认为Google产品的隐私条款未充分体现GDPR公开透明和清晰原则;2020年3月被瑞典处罚700万欧元,原因是Google未能充分履行GDPR赋予用户的数据“遗忘权”。

受GDPR立法的影响,全球其他国家也陆续推出了相关的隐私法规。具有代表性的是美国2018年6月通过的《加州消费者隐私法案》(California ConsumerPrivacy Act,CCPA),由于影响涉及大部分知名IT科技公司,如惠普、Oracle、Apple、Google和Facebook等,该方案从立法到颁布备受各界人士的关注。该法规同样赋予了消费者多种数据权利,同时对企业提出更严的标准与要求。另外,巴西于2019年7月通过《通用数据保护法》(LGPD)的最终版本;印度在2018年12月公布修改后的《2019年个人数据保护法(草案)》(Personal DataProtection Bill, 2019);泰国于2020年5月正式实施《个人数据保护法》(Personal Data ProtectionAct)等。

2020年10月21日,我国《个人信息保护法(草案)》在人大网正式对外公布[2]。作为一部全面保护个人信息安全的综合性法律,具有重要的意义。该法律保护我国境内公民的各项个人信息权益,同时赋予个人信息主体各项数据权利,包括知情权、决定权、查询权、更正权、删除权等;同时明确了个人信息处理者(企业)的合规管理和保障个人信息安全等义务,并指出保障个人信息安全采取分级分类、加密、去标识化等措施。此外,对违法的行为提出更高的处罚力度,违反法规最高面临5000万元人民币或一年度营业额5%的巨额罚款,同时可以责令暂停相关业务、停业整顿、吊销营业许可或营业执照等严厉的行政处罚。这些处罚给企业的个人信息违规违法行为形成强大的威慑力。值得关注的是,在该草案公布临近几天,金融领域执法重拳出击:央行对3家银行的6家分支机构由于侵害消费者个人信息等违规行为开出百万、千万级大额罚单,并对相关责任人予以警告并处以罚款[3]。可见,企业应足够重视个人信息安全与数据隐私合规性问题,并落实相关举措。

从对企业的影响来看,对欧盟GDPR和国内的《个人信息保护法(草案)》以下的一些合规性热点进行解读:

  • 个人数据/个人信息的识别与分类

GDPR保护的数据对象是“个人数据”。其定义是“关于一个已识别或者可能识别的自然人(即数据主体)的任何信息”,“个人数据”范畴边界十分宽泛,涵盖信息十分丰富,不仅包括传统意义的姓名、年龄、性别这些基本的个人信息,还包括一些特殊的数据也被归并为“个人数据”,比如生物识别数据——指纹、虹膜、DNA数据等;再比如IP地址码, MAC地址码,Cookie信息等,这些信息以往被认为是网络设备信息或网络行为信息,GDPR将其归类到“个人数据”。《个人信息保护法(草案)》的“个人信息”,虽然与GDPR的“个人数据”叫法不同,但实际上概念趋向一致,界定标准也几乎完全类似——“个人信息是以电子或者其他方式记录的与已识别或者可识别的自然人有关的各种信息”,同样采取“识别说”为基础,拓宽了个人信息的范畴。企业为了满足合规,必须拥有强大的敏感数据识别能力,能发现各种个人相关的信息以及敏感数据子类别,同样具有分类能力,比如对个人信息主体按照国家归属地进行分类,按照不同儿童和成年人的年龄范围进行分类,以及敏感度分类等。

  • 个人数据/个人信息保护的技术措施

GDPR明确指出保护过程可采取加密或假名化两种措施:加密可保障数据存储和传输过程的安全性,降低数据被非法窃取和泄露的风险;而假名化是GDPR推荐一种“无损的”数据脱敏方式,它对个人数据的标识符信息(比如姓名、身份证号)通过哈希等手段重新命名,同时将真实的标识符-“重命名”映射表与假名化后的个人数据分开存储,以降低隐私泄露风险,同时保证个人数据的完整性。《个人信息保护法(草案)》明确指出可应用加密或去标识化安全技术措施,其中去标识化相比GDPR假名化更为宽泛,去标识化在企业通常称为“数据脱敏”,不仅包括假名化、还包括数据屏蔽、数据泛化、量化、置换等处理方式。这些意味着企业在存储、处理这些个人数据,需采取数据层面的保护措施进行安全防护。

  • 数据权利请求与响应机制

GDPR赋予用户个人数据的知情权、访问权、修改权、遗忘权等各项数据权利,相应地,企业必须响应用户的数据权利请求,比如用户行使“遗忘权”时,企业必须提供删除数据的界面与入口,并执行相关处理操作与流程,以及对用户输出响应报告。且GDPR明确规定企业处理一般请求的响应时间是一个月,复杂请求的响应时间可延长至两个月。《个人信息保护法(草案)》首次全面赋予个人信息主体各项数据权利,包括知情权、决定权、查询权、更正权、删除权等,同时明确指出企业应当建立个人行使权力的申请受理和处理机制。对于响应时间,该草案未明确指出,但《个人信息安全规范》(GB/T 35273-2020)提出响应的时间是30天内(差不多是1个月)。这些促使企业必须建立个人信息请求运营机制,并需要使用流程自动化处理方式。

二、合规驱动下的数据安全技术盘点

Gartner今年7月份将数据安全(Data Security)与隐私(Privacy)作为安全的两个细分领域,分别发布了2020年数据安全成熟度曲线[5]、2020年隐私成熟度曲线[6],后者与隐私合规性紧密相关。实际上,隐私包含数据安全领域大部分的技术栈,同时也包含新型技术,比如主体权利请求(Subject RightsRequest, SRR)、同意与偏好管理(Consent andPreference Management, CPM)等(一般地,国内习惯将隐私并入到数据安全的范畴,将相关技术都统称数据安全技术,本文沿用这种叫法)。

Gartner发布的2020年隐私成熟度曲线,涵盖了35种数据安全相关技术,种类丰富且繁杂,分别处在创新触发期、期望顶峰期、幻想破灭期、稳步爬升期和生产成熟期五个阶段。其中超过70%技术处在稳步爬升期,说明该领域创新技术活跃,有巨大的发展空间,具体如表1所示。

从作用和应用场景角度看,笔者认为35种数据安全技术可分为五大类:

  • 数据安全治理相关

包含多种数据技术组合,以及融合非技术的组织管理措施。比如数据安全治理(Data SecurityGovernance ,DSG)、隐私影响评估(Privacy Impact Assessment, PIA)、数据泄露响应、数字道德、隐私设计(Privacy by design, PbD)和IT风险管理方案。

  • 敏感数据全生命周期的安全防护

包括数据分类、文件分析(针对非结构化敏感数据的识别)、动态脱敏(DDM)、保留格式加密(FPE)和数据销毁(Data sanitization)。

  • 用户隐私权响应与评估合规

包括主体权利请求(SRR)、同意与偏好管理(CPM),可以自动化处理和响应用户提出的数据访问权和删除权等各项权利,以及隐私设计(Privacy by design, PbD),用于在产品设计时考虑隐私合规与可用性问题等。

  • 隐私增强计算类技术

包括差分隐私(DP)、安全多方计算(SMPC)、同态加密(HE)、零知识证明和机密计算(包括TEE)等技术。

  • 其他

包括重点领域的数据安全技术,比如移动终端威胁防御、云环境、5G、区块链的敏感数据保护。

表1 Gartner 2020年隐私成熟度曲线涵盖的相关技术

技术成熟度

数据安全相关技术

创新触发期(Innovation Trigger)

机密计算、数据安全治理(DSG)、同态加密(HE)、差分隐私(DP)、主体权利请求(SRR)、零知识证明(ZKP)、5G安全、合成数据、区块链的数据安全

期望顶峰期(Peak of Inflated Expectations)

数据泄露响应、安全多方计算(SMPC)、同意与偏好管理(CPM)、去中心化实体、数字道德、文件分析、隐私影响评估(PIA)、数据分类

幻想破灭期 (Trough of Disillusionment)

保留格式加密(FPE)、人格化、隐私设计(PbD)、PHI个人医疗隐私同意管理、移动终端威胁防御、云数据保护网关、隐私管理工具

稳步爬升期(Slope of Enlightenment)

数据销毁(Data sanitization)、安全即时通讯、电子取证软件、IT风险管理方案、云访问安全代理( CASB)、动态脱敏(DDM)、云应用程序发现

生产成熟期(Plateau of Productivity)

数据库审计与防护(DAP)、云安全评估、数据库加密

三、合规视角下的数据安全发展趋势观察

在隐私法规的强有力推动下,国内外数据安全相关技术和产品得到快速发展,逐步形成以“合规遵循”为主的安全细分领域。据2019年11月Gartner的一份预测报告指出,预测在2023年之前全球80%以上的企业将面临至少一项以隐私为重点的数据安全保护规定,并且在合规上的投入将突破80亿美元。由此可见,数据安全合规未来仍然有广阔的市场应用前景。下面对前文提到的数据技术的发展趋势分别进行分析。

观察1:欧美GDPR /CCPA驱动,用户数据权利响应自动化等相关技术发展迅速

全球一些隐私法规赋予数据主体(用户)自由访问、修改和删除个人数据等权利,相应地,要求企业必须在规定的时间内对用户提出的请求进行处理和响应,比如GDPR要求的时间一般为1个月,而CCPA是45天。快速响应数据主体权利请求(Subject RightsRequest, SRR)对多数企业是一项极大的挑战。据调查,约有三分之二组织人工处理单个SRR需要两周以上的时间,且平均消耗成本高达1400美元。那么,在合法时间内响应高并发的SRR,传统手工操作是一项困难任务。RSAC 2020创新沙盒比赛中,Securiti.aI一举夺得冠军,它主推自动化的SRR、CPM等用户数据权利响应类产品;另外RSAC2018的创新沙盒的冠军——BigID,它同样聚焦在该类隐私合规产品中;另一家非常著名的创业公司OneTrust有一块很大的业务也是隐私合规性产品,与Securiti.aI几乎重合。这三家初创安全公司融资累计规模超过6000万美元。可以侧面可以反映出,用户数据权利响应产品在国外十分火热,已经发展成为一块稳定的安全市场。

这些产品主要使用了流程自动化以及多种人工智能技术:其中流程自动化可帮助企业的数据安全运营团队从繁琐重复的手工处理“请求-响应”升级为程序的自动化处理,一方面可降低运营成本,另一方面降低由于响应时间延误带来的违规风险;而人工智能技术方面,使用自然语言处理技术(NLP)识别非结构化的敏感数据,使用知识图谱技术关联数据主体所有相关信息,同时使用对话机器人技术方便自动化处理一些提问需求。具体参考《Securiti.ai—解决隐私合规痛点的一站式自动化方案》。

我国《个人信息保护法(草案)》赋予个人包括知情权、决定权、查询权、更正权、删除权等,同时指出“个人信息处理者应当建立个人行使权利的申请受理和处理机制”,但尚未规定具体的时间,而在国标《个人信息安全规范》(GB/T 35273-2020)提出响应的时间是30天内。随着法规的完善,可预计国内SRR、CPM隐私合规技术与市场正逐步形成。

代表公司:Securiti.ai、BigID、OneTrust

观察2:合规基础产品——敏感数据识别、数据脱敏市场日趋成熟

无论是欧盟GDPR、美国CCPA,还是我国的《个人信息保护法(草案)》,均明确表示保护的数据对象是个人数据(或称为个人信息),企业必须履行该类数据的安全保护义务。为了遵循合规,企业第一步是需要识别出存储和流动的各类敏感数据,不仅包括个人基本信息,包括用户姓名、身份证号、手机号等信息,还包括一些个人敏感数据,比如医疗隐私、金融隐私和网络行为的隐私(比如Cookie信息)等。这些敏感数据第一步需要识别。目前已经发展多种敏感数据识别方法:①基于正则的识别;②基于关键词库的识别;③基于数据相似度的识别;④基于机器学习的识别。目前前两种方式在工业界发展较为成熟,一般建立相对全面的规则库或字典。后两种方式通常应用前两种无法解决的敏感数据场景,比如很难直接定义规则或关键词。第③方法首先从参考数据提取一些特征,然后将其他数据使用同样处理方法后,进行相似度比较,超过一定阈值当作同一类数据;第④方法利用机器学习的强大学习与预测能力,收集足够的样本并进行类别标注,进行模型训练,完成后部署模型自动化识别新数据的类别。识别完成后,为降低敏感数据在二次使用和流通过程(非生产环境,比如数据分析、测试等)的法规风险,大量的数据脱敏需求应运而生。数据脱敏按处理结果是否可还原可分为可逆脱敏和不可逆脱敏技术。可逆脱敏可以理解为企业通过建立一些敏感词的映射表替换为其他非敏感数据,通过反向映射表可将脱敏数据恢复为原始数据。不可逆脱敏技术包含的策略丰富灵活,包括取整、量化、泛化、屏蔽、截断、散列和加噪等。按照使用场景,可将脱敏分为静态脱敏 (StaticData Masking, SDM)、动态脱敏 (Dynamic Data Masking, DDM)。静态脱敏一般用于非生产环境中(测试、统计分析等),动态脱敏一般用于生产环境中。目前静态脱敏技术已经发展较为成熟,而动态脱敏近年来也相关产品落地。

作为两类基础性的合规产品——敏感数据识别和数据脱敏,国内外市场日趋成熟。国内外多家安全厂商在此有所布局,如大型IT公司Microsoft、IBM推出了敏感数据识别和数据脱敏产品,初创公司Securiti.ai、BigID推出了大规模敏感数据的识别产品,并通过AI驱动实现半自动化或自动化扫描和发现。国内绿盟科技推出了IDR产品,可应用在传统数据库和大数据平台的敏感数据发现与分类分级场景中,安华金和推出数据库脱敏相关产品,可应用结构化数据的脱敏应用中。

代表公司:Microsoft、IBM、Securiti.ai、BigID、安华金和、绿盟科技

观察3:合规与数据利用业务场景紧密结合,隐私增强计算技术与应用不断涌现

大数据时代,敏感数据的高频使用和流通,数据既要安全也要求业务利用,这给传统以加密为核心的数据安全技术带来了巨大的挑战。为了满足合规和数据利用的双重需求,促进一批与业务场景紧密结合的新型数据安全技术的产生和发展,包括同态加密、安全多方计算、联邦学习、差分隐私等。由于这些技术不仅可保证原始数据不被泄露(不可见),而且在具体某些业务场景(如聚合、集合运算以及AI建模)保证数据的可用性,工业界习惯将它们形象称为“可用不可见”技术。Gartner将这些技术统称为隐私增强计算(Privacy EnhancedComputation)技术,并将其与随处运营、人工智能工程化等作为 2021年六大重要战略科技趋势。国内外均在此领域有布局:Google的联邦学习及在Android端应用;Apple在iPhone手机的数据采集中使用了本地化差分隐私技术;RSAC 2018创新沙盒亚军——Duality公司,在定制服务器实现商业化的同态加密方案;阿里主打安全多方计算技术以及平台;百度、腾讯和微众银行等分别推出联邦学习框架并应用在了隐私数据联合建模场景。

代表公司:Google、Apple、Duality、阿里、腾讯、百度、微众银行

观察4:数据安全治理框架与技术方案百家争鸣

传统一两种数据安全技术和措施,无法解决应对内部和外部数据安全威胁,以及合规性和业务带来的挑战。为了应对挑战,Gartner在2017数据安全与风险管理峰会上提出安全治理(DSG)的概念与方法论。数据安全治理——以“数据安全”为核心的综合治理体系,它涉及法规、场景、技术、产品、组织管理以及各类标准流程、策略配置等。微软也提出了针对隐私、保密和合规性的数据治理框架 (Data Governance for Privacy Confidentiality and Compliance, DGPC),分别从人员、流程和技术这三个角度出发。IBM提出的数据安全和隐私解决方案采用敏感数据发现与分类、评估漏洞、监控与审计等分层方法实现数据安全性。在国内,多家企业提出各自的数据安全治理方法论或数据安全解决方案。比如,阿里提出了DSMM模型,它以数据为中心,数据生命周期为主线,针对数据生命周期各阶段建立全面的数据保护,并对能力成熟度进行定级;安华金和提出了数据安全治理通用框架,框架从数据安全治理机制、数据安全生命周期管理、数据安全技术部署开展数据安全治理与建设;绿盟在Gartner数据治理框架基础上,结合客户的数据安全防护需求,对实际情况进行研究和实践,也建立一套完整科学的方法体系——数据安全解决方案。该体系分为五个基本治理步骤——“知”、“识”、“控”、“察”、“行”,五个步骤分别采用不同的数据安全技术与管理措施具体参考《拨开云雾见天日——数据安全治理体系》

代表公司:Microsoft、IBM、阿里、安华金和、绿盟科技

四、小结

在全球相关法规的推动下,如欧盟GDPR,美国CCPA,以及我国最近发布的《个人信息保护法(草案)》,隐私合规逐步成为企业数据安全建设与治理重要驱动力。在法规监管不断强化的背景下,企业必须主动进行合规性建设,结合自身业务场景与风险,实施体系化的数据治理与建设,在数据的全生命周期结合安全需求实施一项或者多项技术与措施以应对数据安全风险。在一些新的数据安全场景,尤其是数敏感数据的安全共享计算,该领域创新技术不断,包括安全多方计算、联邦学习、差分隐私,唯有通过跟踪和探索这些新技术的发展,才能更好应对新场景中带来的新的数据安全问题、新的安全风险以及合规性挑战。

参考资料

1.General DataProtection Regulation (GDPR), https://eur-lex.europa.eu/legal-content/EN/TXT/?uri=uriserv:OJ.L_.2016.119.01.0001.01.ENG&toc=OJ:L:2016:119:TOC.

2. 《个人信息保护法(草案)》,http://www.npc.gov.cn/

3. 金融信息安全成监管重点央行开千万元级罚单护航,https://finance.sina.com.cn/stock/jhzx/2020-10-30/doc-iiznezxr8873053.shtml

4. 绿盟科技,《数据安全白皮书2.0》

5. Gartner, HypeCycle for Privacy, 2020

6. Gartner, HypeCycle for Data Security, 2020

本文为数据安全系列文章,欢迎阅读该系列的相关文章:

法规标准篇:

《浅析数据安全与隐私保护之法规》

《数据淘金热时代下的隐私问题何去何从——探讨国内外法规下的匿名化概念》

治理体系篇:

《拨开云雾见天日——数据安全治理体系》

《聚焦数据安全建设难点,绿盟科技发布《数据安全白皮书2.0》》

实践技术篇:

《鱼和熊掌兼得——隐私保护与价值挖掘》

《大数据下的隐私攻防:数据脱敏后的隐私攻击与风险评估》

《大数据下的隐私攻防02:身份证号 手机号如何脱敏才有效?》

《数据匿名化:隐私合规下,企业打开数据主动权的正确方式?》

数据安全事件解读:

《2019年国内外数据泄露事件盘点——个人信息保护刻不容缓》

RSAC创新技术解读:

《RSA2020创新沙盒Securiti.ai—解决隐私合规痛点的一站式自动化方案》

《RSA2019创新沙盒Duality:基于同态加密的数据分析和隐私保护方案》

关于天枢实验室

天枢实验室聚焦安全数据、AI攻防等方面研究,以期在“数据智能”领域获得突破。

内容编辑:天枢实验室 陈磊 责任编辑: 王星凯

本公众号原创文章仅代表作者观点,不代表绿盟科技立场。所有原创内容版权均属绿盟科技研究通讯。未经授权,严禁任何媒体以及微信公众号复制、转载、摘编或以其他方式使用,转载须注明来自绿盟科技研究通讯并附上本文链接。

0 人点赞