本体技术视点 | 差分隐私这种隐私保护手段,为何获得了技术巨头的青睐?(上)

2020-11-24 13:58:04 浏览数 (1)

在上期技术视点中,我们为大家带来了以太坊 Eth2的规范 v1.0,这一里程碑事件标志着 Eth2阶段主网即将正式开启。本期技术视点,我们将介绍差分隐私这一较为成熟的隐私保护手段,并分步解释其采用的随机化技术。

自2001年起,知名科技评论期刊《MIT Technology Review》每年都会发布全球十大突破性技术,关注技术的商业应用潜力以及技术对人类社会生活的重大影响,这也被认为是投资和技术应用领域的风向标。今年年初,2020年“全球十大突破性技术”亦如约而至,差分隐私数字货币都出现在了这份榜单上。

上个月,我国央行数字货币 DC/EP 在深圳落地,这将成为数字经济发展的重大推力。数字经济的发展也要求数据生态建设基础设施的逐步完善。在数据大规模协作的今天,数据在采集、存储、提取、挖掘、分析和展现等各个流程中都需要进行隐私保护,以防止个体信息泄漏,从而对个人造成不必要的伤害。

1

差分隐私保护

一般来说,隐私只针对个体用户,而不针对用户群体。隐私保护只需要保护个体用户的属性,而无需保护用户群体的属性。通过对公开的用户群体数据进行分析也无法推测出个体用户的信息。

在讨论隐私数据保护时,一般涉及到两种情况

  • 某公司为了学术研究和数据交流等需要,开放用户数据。其他机构或者个人可以向公开的数据库发起查询请求,返回的查询结果应保证用户隐私;
  • 某公司作为服务提供商,为了提高服务质量,主动收集用户数据。这些通过客户端收集的数据也需要保证用户隐私。

如何保护隐私是信息时代以来的一直讨论的热点。抹去用户唯一识别信息的做法曾被 Netflix 和 AOL 等公司采用来发布信息。事实证明,这种做法无助于隐私保护。人们可以通过背景信息的关联来取得隐私信息。

学术上,有很多隐私保护的方法被提出。例如,-anonymity、-diversity、-closeness、-differential privacy、加密、零知识证明等。其中,差分隐私技术是一种较为成熟的隐私保护手段。差分隐私的提出是为了应对差分攻击。举个例子来说,通过应用差分隐私保护技术。攻击者即使知道100个人的平均薪水和其中99人的平均薪水,他也不能通过对比(差分)这两个信息来获得另外1个人的薪水信息。

差分隐私保护技术主要通过加入随机性来完成。进一步说,对于只有相差一条记录的两个数据集来说,加入随机性,来使得查询他们获得结果相同的概率非常接近。这里,并不能保证概率相同。因为如果概率相同,那么数据就需要完成随机化,公开数据也将变得不可用。差分隐私采用的随机化技术,需要在隐私保护和数据可用性之间达成一个平衡。

2

RAPPOR

RAPPOR(Randomized Aggregatable Privacy-Preserving Ordinal Response),是 Google 推出的隐私保护统计平台。在这里,我们以 RAPPOR 为例,分析如何实现差分隐私。RAPPOR 的示例代码可以在 GitHub 上找到。

RAPPOR 分为两部分,客户端服务器端。客户端以用户真实的隐私数据为输入,经过两次随机化过程生成随机化响应,并把其发送给服务器端。服务器在收到大量客户端的随机化响应后,利用统计分析工具做统计分析。

2.1

客户端

假设用户的真实数据为,客户端使用一个哈希个数为,大小为的 bloom 过滤器。客户端的处理过程如下:

  • 映射。将映射到 bloom 过滤器中,得到;
  • 永久随机化。假设概率,对于0<i<k,设置
B'_i=left{ begin{aligned} 1 && text{以概率}0.5f\ 0 && text{以概率}0.5f \ B_i && text{以概率}1-f end{aligned} right.
  • 即时随机化。假设概率和,设置满足
Pr(S_i=1)=left{ begin{aligned} q && text{如果}B'_i =1\ p && text{如果}B'_i =0 end{aligned} right.
  • 发送。客户端将(大小为)发送给服务器端

在某些场景下,可以简化客户端的过程来获得更高的效率

  1. One-time RAPPOR. 在一次性收集的场景中,不需要永久化的隐私保护。因此,可以去掉即时随机化过程;
  2. Basic RAPPOR. 如果被收集的字符串集合相对较小而且定义明确,那么可以省略 bloom 过滤器,而让每一个值映射到每个位上。例如,收集的是性别,那么可以定义“男”映射到第0位并置1,“女”映射到第1位并置1。即,用一个确定性的映射代替 bloom 过滤器。此时,h=1;
  3. Basic One-time RAPPOR. 上述两种的结合,采用一次性收集的方式,并采用确定性的映射方法。

未完待续...

0 人点赞