作者:张家林
本文约5300字,建议阅读10分钟个人数据开发利用新范式的主要问题是要解决好开放、隐私和安全。
个人数据开发利用的“不可能三角”是指在个人数据开发利用中,不可能同时满足开放、隐私和安全这三个目标;与此同时,其中任何一个目标都对其他两个目标产生影响,从而无法独立的实现各自目标。
个人数据开发利用的旧范式是App应用服务商向个人提供服务,个人向App应用服务商提供或生产个人数据。App应用服务商通过处理、交易个人数据,从而获得直接或间接收益。在过去几十年中,这种范式处于主导地位。自2016年欧盟推出GDPR以来,各个国家都在加快围绕个人信息、个人数据保护的立法议程。我国《个人信息保护法》、《数据安全法》等重要法律法规的出台,标志着全球范围内,个人数据的开发利用从旧范式在向新范式转换[1]。新范式需要解决的一个非常突出的问题就是如何破解个人数据的“不可能三角”。
自GDPR出台以来,各个国家都在积极探索适合本国或地区的个人数据开发利用新范式。至今,逐渐演化出三种具有代表性的新范式,可以用三个符号标识:MyData、OpenData和PeopleData[2]。这三种新范式的主要特征分别是“以人为本”的MyData范式;“基于规则、协议”的OpenData范式和“还数于民、用数利民、智数惠民”的PeopleData范式。
三种新范式(以下统称为“新范式”)由于各自适用的国家或地区的法律、文化、监管和数字基础设施的差异而存在很多不同点。但这三种新范式的目标一致:寻求最优解决方案,破解个人数据的“不可能三角”。
本文首先对个人数据“不可能三角”的形成机理用一个简单的分析模型做概要的说明,然后就新范式破解“不可能三角”的基础理论做简要的介绍,并进一步分析该理论为什么能破解的基础原理。
一、“不可能三角”的形成机理
个人数据“不可能三角”的形成是隐私、信息和数据之间相互作用的必然结果。
首先,简要的分析一下个人隐私、信息与数据之间的相互作用,构建一个简单的分析模型。
“个人隐私是自然人的私人生活安宁和不愿为他人知晓的私密空间、私密活动和私密信息。” [3]《民法典》用上述列举的方式,界定了隐私是“私人生活安宁”加上“私密空间、私密活动和私密信息”(以下简称“隐私1 3定义”)。很显然,私人生活安宁、私密空间、私密活动和私密信息所涉事宜,是独立于信息或数据之外的事实状态[4],这些状态有些被以电子或其他方式记录下来,有些则没有。
“个人信息是以电子或者其他方式记录的与已识别或者可识别的自然人有关的各种信息,不包括匿名化处理后的信息。” [5] 个人信息可以是电子或其他方式记录的各种信息,这些信息的一个非常重要特征是其直接或间接的对某个自然人的可识别性和关联性。
因为“数据是指任何以电子或其他方式对信息的记录”[6],那么,个人数据就是任何以电子或其他方式对个人信息的记录。由DIKW模型可知[7],数据、信息之间存在明确的层级结构以及相应的关系。从法条上对隐私的界定,可以看出,其属性和特性比较复杂。在此,我们引入一个名义的(nominal)事实空间,其中的任意一个元素是与某个自然人相关的事实状态。一个自然人的私人生活安宁、私密生活、私密空间、私密信息的事实状态构成的子集,就是该自然人的隐私。显然,任意自然人的隐私是事实空间的一个子集。由此,我们构建一个简便的分析模型如下:
个人隐私是事实空间(
)的一个子集,自然人A的隐私,可以表示为
。A的个人信息是信息空间(
)的一个子集,即
;A的个人数据是数据空间(D)的一个子集,即
。
这些空间之间存在某种关系,我们用态射来表示,即
;。而空间中子集之间的态射,表示为:
。
我们用此模型来分析隐私、信息和数据之间的相互作用。
私密信息是隐私的组成部分,也是个人信息的子集。由此,隐私与信息具有天然的联系。但由于隐私、信息明显属于不同的空间(范畴),因此,可以将私密信息看作隐私在信息空间的投射[申卫星,2022]。
由此,就可以比较清晰的界定隐私和信息之间的关系。采用信息理论形式化的描述:事实空间的一个子集,如果满足“隐私1 3定义”,就称为隐私。隐私存在可编码的部分和不可编码的部分。其中,可编码的部分投射到信息空间,成为个人信息的一个子集。
进一步,已知信息论和数据科学的发展指出,采用适当的算法,可以从信息、数据的输入中,推断出事实。由此,可以很自然的推论,从个人信息、个人数据的输入中,也可以推断出关于个人的事实,其中一些事实可能满足“隐私1 3定义”[8]。即,
式1-1揭示出,通过采集足够的关于某个人的信息、数据,某些算法能够“洞察”到这个人的“隐私”。同理,从个人数据的输入中,也可以推断出关于个人的信息,其中一些信息属于个人信息。即,
式1-2揭示出,只要有某个人足够的数据,某些算法也能够“洞见”这个人的个人信息。示意图如下:
这样的案例很多。例如,通过捕捉一段时间个人的眼球运动数据,就能推断很多关于这个人的个人信息。通过分析一个人一段时间内的详细消费数据,购买什么产品、什么品牌,购买频率等,不仅能推断此人的宗教信仰,还能推断性别取向等私密信息和个人隐私。
传统的安全技术,通过加密、保密以及可信计算环境都技术手段,来防止敏感个人数据的泄露和访问控制。但从上面的分析可以看出,诸如隐私暴露、个人信息泄露等问题,不能仅通过加密、保密等传统安全技术和手段,还需要应对来自算法带来的非传统安全问题。最直接的手段,当然是限制数据流通、以及某些算法的使用,切断算法洞察、洞见的能力。
从上述隐私、信息和数据的简单分析模型可以看出,个人数据开发利用的“不可能三角”形成的必然性。
个人的社会活动,需要与外界交换信息、数据。个人数据的开放,不仅是构建信任的基础,同时也是获取商品、服务和从事各项活动的基础。个人数据的开发性,可以采用数据层级深度、类型范围、颗粒度、更新频率等指标度里。将更多的数据提供给外界,潜在的好处是可以让个人获得更个性化、更精准和更体贴的服务。但由(式1-1)、(式1-2),很显然,当数据开放达到一个临界点后,必然的就会出现隐私、安全问题。
为了保护隐私,只能减少数据的开放性。但很自然的,这会引起诸如信任、各项活动受限等问题。同样的,如果要想更安全,需要限制开放、提高安全防护级别,但这一方面不一定能带来安全,另一方面,会大大限制个人数据要素的流通、限制个人的很多活动,会间接的诱导其他安全问题。
无论MyData、OpenData还是PeopleData范式,都采用场景一致性理论[9](CI理论)作为破解“不可能三角”的基础理论。接下来,首先对CI理论做一个简要介绍,然后分析其为什么能够破解“不可能三角”。
二、场景一致性理论(CI:Context Integrity)
CI理论指出,引发人们对个人数据开发利用日益担忧的根源并非数据是否可控、是否保密,而是技术、系统和实践中那些不合理的个人信息流通(non-appropriate flow)。所谓不合理的信息流通,是指违反特定场景所应遵循的规范的信息流通。
CI理论构建了一个理论框架。该框架由三个独立要件构成:1)角色(包括信息发送方, 信息接收方和信息主体);2)信息类型;3)传输原则。模型的示意图如下:
信息从发送方传输给接收方是否为合理信息流通(appropriate flow),是可以依据这三个要件的五个参数值作出判断的。
由{角色,信息类型,传输原则}这三个要件的五个参数值构成的集合称之为规范空间(Norm Space,记为)。规范空间的一个子集示例如下[10]:
对于任意一个特定的场景C,在规范空间中N存在一个与之对应的子集Ni以及在此关系下诱导出的信息流Fi。场景、规范和信息流的对应关系,即{
}的形成,有些是历史形成的、也有些是人们发现、制定的。无论什么情况下,CI理论指出,都应当遵守在Ci这个特定场景下,始终运用规范Ni来诱导信息流Fi,即场景一致。而使用其他任何规
范,诱导出的信息流Fi,则被认为是场景不一致的。
例如,银行申请按揭贷款的场景。我们假设,这一特定场景(申请按揭贷款)的规范已经形成的是:
当Alice向XYZ银行申请按揭贷款,并签署了同意XYZ银行从信用报告机构获取其信用报告的授权书。但XYZ银行在这个场景下,使用了其他规范:
在上述这种情况下,基于 CI理论,XYZ银行就没有遵守场景一致性原则。
医生给病人治病,其很多隐私不可避免的需要暴露给医生。在治病这个场景下,这是合理的信息流。但如果一个人去买保险,在这个场景下,如果保险公司向这个人索取同样的隐私,那就是不合理的信息流,侵犯了个人隐私。
CI理论认为,任何信息流通中对场景一致性的破坏都会导致需要对新形成的规范进行重新分析和评估。因为规范的改变可能对应了利益主体权利的变化,并导致隐私、安全等问题。一份运用CI分析框架的实证分析报告,比较了Facebook在2018年发生“剑桥分析”事件前后的规范改变对信息流的影响[11],实证了规范改变对信息流的影响。
上上图为CI的分析框架对Facebook隐私政策解析,上图为信息流的变化。
因此,规范改变不一定是负面的。事实上,场景一致并不是一成不变的,即场景与其规范的对应关系会动态变化。例如,新技术的进步以及创新所带来的许多信息流通上的变革,导致在许多场景下,新的规范逐渐取代了之前的老规范,而建构了新的合理信息流通:
。于此同时,新的场景需求,也会通过社会实践形成新的规范:
。例如,基于跨区域的健康码互认这一场景,就很自然的产生新的信息流:个人核算检测数据、行程数据等隐私也被分享给新的数据处理方。越来越强大、可信、安全的基于AI的数字助理,能够为个人学习、生活带来巨大的便利,更多包含隐私的信息流向数字助理产生了新的合理的信息流。[12]
三、CI理论破解“不可能三角”的分析
CI理论指出公众关切的隐私问题的根源,并非数据是否可控、是否保密,而是由于技术、系统和实践中产生的“不合理信息流通”。因此,提出按照以场景、规范一致性的原则诱导的信息流通作为隐私保护的基础。通过场景和规范的一致性 ,在个人隐私与信息和数据分享之间建立“可协商”机制,而并非一味的禁止分享和使用私密信息和数据。
我们采用前文所述的简单模型来分析CI理论为什么能够破解“不可能三角”。
对任意一个自然人,其向数据使用者基于场景授权使用其个人数据中的三个子集x,y,z。
数据使用者拟使用算法处理和。
由(式1-1)、式(1-2),假设用算法处理{x y z},可以推断出的一个私密信息:
。
按照CI理论,我们假设由场景Ci对应规范Ni的信息类型
包含
,由此,场景Ci和规范NI诱导的信息流
即是合理的信息流通,不存在侵害隐私的问题。在此场景下,数据的开放性满足要求,即x,y,z可以提供给数据使用者处理。由于可以对场景对应的算法进行验证,即保障x在处理数据时,只能使用算法h,则整个数据处理过程不存在隐私问题。数据安全就是传统的安全措施手段的运用。这个可以根据数据安全等级要求,按照安全规范处理。例如,如果用户不希望数据使用者处理数据明文,则可以采用加密、隐私计算等技术对数据安全进行保护。
反之,如数据使用者基于另外一个场景Cj,也仍然使用算法h处理x,y,z。由于场景Cj对应的规范Nj的信息类型
不包含
,那么,这样的数据使用就违反了场景一致性原则,存在侵害隐私的问题。A可以拒绝x使用其的{x,y,z}数据。正确的做法应该是要求x修改其算法,使得该算法任何情况下都无法通过处理这些数据,推断出私密信息。
为了讨论问题,我们再假设x开发了一个高级算法g替换。算法g不仅能够按照场景Ci处理{x y z}推断出
,而且还能够额外的通过处理{x z}而推断出A的另一个私密信息
。当A和X基于场景Ci和对应的规范Ni处理数据{x,y,z}时,依据场景一致性原则,则可以对信息接收方接收的信息加以限定而规避隐私泄漏问题,即仅允许由g(x y z)处理后的信息流到接收方。
由以上简短的分析,就可以看出,从场景出发,通过场景对应的规范,来管控合理的信息流通,就能够有效的解决“不可能三角”,即“场景一致性”是打开“不可能三角”之门的钥匙。
实践中,新场景的不断出现,在未形成与之对应的规范的情况下,如何应对?如果简单的拒绝,或许会失去更多有益的东西。如果不加思索的同意,或许会出现新的隐私和安全问题。新的研究提出了包括专家法、众智法等解决方案,但这些方案的实施效果尚待进一步的验证。
与此同时,理论上构建场景—规范对应清单是简便的,用于分析问题是可行的。但实践中,很难建立标准化的清单和穷尽所有的场景。因此,会出现相当多的情形下,判断场景是否一致是比较困难的事情。
实践中,主要从两个方向来解决这些问题。一个是隐私工程,另一个是隐私增强技术(PETs)。限于篇幅,本文不详细叙述。
结论
在过去几十年中,数据的无边界(boradless)流动在很大程度上不受监管,从而快速的推动了包括谷歌、亚马逊、腾讯、阿里巴巴等跨国巨头公司的崛起,并重塑了人们的工作、生活和学习方式。
对数据生产要素的认知提升,终结了数据无边界流通的时代。[13]
很多国家正在加速规范个人信息、数据的保护和流通。尤其在安全和隐私方面,各国政府都在紧密锣鼓的制定关于个人数据如何流通的规则和标准。自欧盟的GDPR始,到我国最近的《个人信息保护法》的实施,都赋予了个人越来越多的数字权利。个人数据开发利用的范式转换势在必行。
个人数据开发利用新范式的主要问题就是要解决好开放、隐私和安全。由于隐私、信息和数据之间的相互作用,必然的会形成开放、隐私和安全这三个因素构成的“不可能三角”,“场景一致性”理论为新范式破解此“不可能三角”提供了理论基础。
注释:
[1]《浅议个人数据开发利用新范式》,张家林
[2] www.peopledata.org.cn, www.mydata.org
[3] 《民法典》第1032条第2款
[4] 《数字权利体系再造:迈向隐私、信息和数据的差序格局》,申卫星
[5] 《个人信息保护法》第1章第4条
[6] 《数据安全法》第1章第3条
[7] 《DIKW模型》,彼得.德努克
[8] 《计算信任浅析》,张家林
[9]《Privacy In Context: Technology, Policy, and the Integrity of Social Life》, Helen Nissenbaum,2010
[10] Hellen Nissenbaum Youtube Speech.
[11] 《Going against the Appropriate flow: A contextual integrity approach to privacy policy analysis》,Yan等人, 2019.
[12] 《Privacy and Contextual Integrity: Framework and Applications》, Adam Barth等。
[13] 《the era of borderless data is ending》,NYtimes, 2022/5/23
编辑:于腾凯
校对:林亦霖