总有一天,我们将拥有使机器学习中的隐私无懈可击的工具和能力,但我们还没有走到那一天。
编译 | 李雨晨
人工智能有希望改变(事实上已经改变了)现有行业,但隐私问题仍是一个悬而未决的挑战。
此前,英国的NHS基金会被曝出,在没有经过160万名患者的同意下公布了DeepMind的数据。
但是,从全世界范围来看,数据隐私尤其是医疗数据的隐私保护问题,并不是一个新鲜的话题。
去年11月,Google与Ascension的健康数据共享合作伙伴关系成为了审查的对象,该公司放弃了公布胸部X光扫描图的计划,原因是担心这些扫描图中含有个人身份信息。
去年夏天,微软悄悄地删除了一个拥有超过1000万张用户图片的数据集(MS Celeb),此前有消息称,这些人并不知道他们被包括在内。
另外,一些报告揭露了包括苹果和谷歌在内的科技巨头为改进Siri和Google Assistant等可能非法使用收集的录音。今年4月,Bloomberg披露,亚马逊雇佣合同工对Alexa供电设备数千小时的音频进行注释,促使亚马逊推出面向用户的工具来快速删除云存储的数据。
隐私不仅仅是一个伦理问题,而且是商业过程中的博弈。美国的州、地方和联邦各级的法律旨在将隐私权作为法规管理的强制性内容。美国50个州、地区和哥伦比亚特区,数百项涉及隐私、网络安全和数据泄露的法案正在等待或已经通过。
可以说,其中最全面的一项———《加州消费者隐私法》———大约在两年前已成为法律。这还不包括《健康保险可携带性和责任法案》(HIPAA),该法案要求公司在披露个人健康信息之前必须获得授权。而像欧盟一般隐私数据保护条例(GDPR)这样的国际规定,其目的在于让消费者对个人数据的收集和使用有更大的控制权。
回顾人工智能技术的发展历史可以看到,隐私问题并没有被当成一把悬在头上的“达摩克利斯之剑”。但是机器学习的一个分支———保护隐私的机器学习——试图探索可能防止个人识别数据泄露的方法。而联邦学习、微分隐私和同态加密被认为是最有前景的三种技术。
神经网络的“漏洞”
大多数人工智能系统的核心是神经网络,它由层层排列的功能神经元组成,神经元将信号传递给其他神经元。这些信号输入到网络中,从一层传递到另一层,并缓慢地“调整”网络,实际上调整了每个连接的突触强度(权重)。随着时间的推移,网络从数据集中提取特征并识别交叉样本,最终做出预测。
神经网络不会直接处理原始图像、视频、音频或文本。训练语料库中的样本通过数学转换成多维数组,如标量(单个数字)、向量(标量的有序数组)和矩阵(标量排列成一列或多列和一行或多列)。第四种实体类型,封装标量、向量和矩阵形成张量添加到有效线性转换(或关系)中。
尽管存在这些转换,但通常可以从神经网络的输出中识别出敏感信息,数据集本身也易受攻击,因为它们通常不会被打乱,而且存储在易受数据泄露攻击的集中存储库中。
到目前为止,最常见的机器学习逆向工程为成员推断攻击,攻击者使用单个数据点或多个数据点来确定它是否属于训练目标模型的语料库。事实证明,从数据集中删除敏感信息并不意味着无法重新推断,因为人工智能特别擅长重新创建样本。除非使用隐私保护技术,训练后的模型包含了所有训练集的信息。
Wisconsin大学和Marshfield临床研究学会的研究人员能够从一个被训练用于预测药物剂量机器学习模型中提取患者的基因组信息。
而在另一项研究中,卡内基梅隆大学和Wisconsin-Madison大学的研究人员成功地从用来进行面部识别的训练模型中重建了头部拍摄图像。
一个更复杂的数据提取攻击方法使用生成性对抗网络,或GANs,由两部分人工智能系统组成,分别是生成样本的生成器和区分生成样本和真实样本的鉴别器组成。他们被训练生成与原始语料库中的样本非常相似的样本,而无需接触原始样本,并通过与有辨别力的深层神经网络交互来学习数据的分布。
2017年,研究人员证明,GANs可以被训练来产生私有数据集集的原始样本,从中揭示敏感信息。在另一项研究中,一个团队使用GANs来推断用于训练图像生成机器学习模型的样本,在“白盒”设置中,他们可以访问目标模型的参数(例如AI技术用来拟合数据的变量),成功率高达100%。
幸运的是,像联邦学习和微分隐私这样的方法是有希望保护数据隐私的。
联邦学习
联邦学习是今年AI领域的热词之一,多位学术大咖和企业界的研究者都对这种方法表示看好。
简单地说,联邦学习是一种采用分布式设备或服务器(即节点)训练人工智能算法的技术,这些设备或服务器保存数据样本,而不交换这些样本,使各个节点能够在不共享数据的情况下构建通用的机器学习模型。这与传统的分布式方法不同,后者假设本地数据样本分布广泛。
中央服务器可用于安排算法的执行步骤并充当参考时钟,或者执行步骤可能是对等的(在这种情况下,不存在中央服务器)。不管怎样,局部模型都是在局部数据样本上训练的,并且在模型之间以一定的频率交换权值以生成全局模型。
这是一个迭代过程,被分解成一组联合学习轮次的交互,其中每轮都将当前全局模型状态传输到参与节点。在节点上训练局部模型,每个节点上生成一组可能的模型更新,然后将局部更新聚合并处理为单个全局更新,并应用于全局模型。
谷歌最早探索了联邦学习的方法,并且已经将其部署到生产中。谷歌在其“数千万”iOS和Android设备的Gboard预测键盘中使用它进行个性化。在Pixel4发布的同时,谷歌推出了一个改进版的“正在播放的音乐识别”功能,该功能以联合方式聚合歌曲的播放次数,按地区识别最受欢迎的歌曲,以提高识别率。
据雷锋网AI掘金志了解,谷歌最近推出了一个名为TensorFlow federed的TensorFlow机器学习框架模块,该模块旨在更容易在分布式数据上进行深度学习和其他计算。
当然,没有哪种技术是完美的;联邦学习需要在学习过程中进行节点间频繁的通信。为了使机器学习模型能够交换参数,它们需要大量的处理能力和内存。其他挑战包括无法检查训练示例,以及由于人工智能模型仅在供电和传输参数方法可用时才能训练造成的偏差。
微分隐私
联邦学习与微分隐私密切相关,微分隐私是一种通过描述语料库中组的模式而公开共享数据集信息的系统,同时保留个人的数据。它通常需要在原始数据输入到本地机器学习模型之前向其注入少量噪声,这样窃取数据者就很难从训练模型中提取原始数据。
直观地说,如果一个观察者看不到某个特定个体的信息是否被用于计算,那么这个算法可以被认为是微分隐私的。微分隐私的联合学习过程允许节点共同学习一个模型,同时隐藏任何节点所持有的数据。
开源的TensorFlow库TensorFlow Privacy基于微分隐私方法。具体地说,它使用改进的随机梯度下降方法来调参,该梯度下降将训练数据引起的多个更新平均起来,剪切每个更新,并将噪声添加到最终平均值。
这就防止了对少数细节的记忆,并更加保险,即两种机器学习模型无法区分一个人的数据是否用于他们的训练。
自2017年以来,苹果一直在使用微分隐私来识别流行的表情符号、Safari中的媒体播放偏好等,该公司在最新的移动操作系统版本(iOS 13)中将其与联邦学习相结合。这两种技术都有助于改善Siri的结果,以及苹果QuickType键盘和iOS等应用程序的apps功能。后者扫描日历和邮件应用程序以查找联系人和呼叫者的姓名,这些联系人和呼叫者的号码不存储在本地。
Nvidia和伦敦国王学院的研究人员最近利用联邦学习训练了一种用于脑肿瘤分割的神经网络,Nvidia声称这是医学图像分析的第一个里程碑。他们的模型使用了来自BraTS(多模式脑肿瘤分割)挑战的285名脑肿瘤患者数据集,与Google和Apple采取的方法一样,该模型利用微分隐私为该数据库添加噪音。
Nvidia高级研究员Nicola Rieke在之前的一次采访中说到:“通过这样的方式每个参与节点存储更新,并限制我们在机构之间实际共享的信息的粒度。”如果50%或60%模型进行更新,我们还能以全局模型聚合的方式合并更新吗?我们发现“是的,我们可以。”这真是振奋人心的结果。甚至只共享模型的10%,也可以聚合模型。”
当然,微分隐私也不是完美的。注入底层数据、输入、输出或参数中的任何噪声都会影响整个模型的性能。在一项研究中,在训练数据集中加入噪声后,作者注意到预测精度从94.4%下降到24.7%。另一种保护隐私的机器学习技术———同态加密———没有这些缺点,但它离完美也还很远。
同态加密
同态加密并不是什么新鲜事,IBM研究员克雷格·根特里(Craig Gentry)在2009年开发了第一个方案。
但近年来,随着计算能力和效率的提高,同态加密得到了广泛的应用。它本质上是一种密码学形式,允许对使用算法加密的明文(文件内容),也称为密文,进行计算,使生成的加密结果与对未加密文本执行的操作结果完全匹配。
使用这种技术,一个“加密网”(例如,任何可以应用于加密数据的学习神经网络)可以对数据执行计算,并将加密结果返回给某个客户端,然后客户端可以使用加密密钥(不公开共享)来解密返回的数据并获得实际结果。
英特尔物联网集团副总裁Jonathan Ballon今年早些时候接受VentureBeat 采访时说:“如果发送核磁共振图像,我希望我的医生能够立即看到,但其他人看不到。“
同态加密可以做到这一点。此外,模型本身也是加密的。所以公司可以把这个模型放在公共云上,而云提供商不知道他们的模型是什么样子的。“实际上,同态加密库还没有充分利用现代硬件,而且至少比传统模型慢一个数量级。但是像cuHE这样的新项目,一个加速的加密库,声称在各种加密任务上比以前实现快12到50倍的加速。
此外,像PySyft和tf-encrypted这样的图书馆———它们分别建立在Facebook的PyTorch和TensorFlow机器学习框架上———在最近几个月取得了长足的进步。有像HE Transformer这样的抽象层,它是nggraph(Intel's neural network compiler)的后端,可以在一些密码网络上提供领先的性能。
事实上,就在几个月前,英特尔的研究人员提出了nGraph-HE2,它是HE-Transformr 的继承者,它可以利用自身的激活函数对标准的、预先训练的机器学习模型进行推理。他们在一篇论文中报告说,其运行时标量编码(将一个数值编码成一个比特数组)的速度要快3倍到88倍,吞吐量要翻一番,此外,额外的乘法和加法优化使运行时的速度进一步提高了2.6倍至4.2倍。
IBM高级研究科学家Flavio Bergamaschi研究了使用边缘硬件实现同态加密操作的方法。
在最近的一项研究中,他和同事在一个装备了人工智能摄像头的设备上部署了一个本地同态数据库,使得搜索能够直接在该摄像头上进行。他们报告说,这是“同态加速”的性能,每个数据库条目的查找仅需1.28秒,这相当于5分钟内查询200条条目。
他在最近的一次电话采访中表示:“我们正处于性能转折点。目前完全同态加密在性能上足够快,足够满足某些用例。”
在生产方面,Bergamaschi和他的团队与一个美国银行客户合作,使用同态技术对机器学习过程进行加密。这个机器学习过程是一个线性回归模型,有十几个变量,分析了24个月当前账户持有人的交易数据,以预测这些账户的财务状况,部分原因是为了推荐贷款等产品。
出于客户的隐私和遵从性的考虑,IBM团队加密了现有模型和所使用的事务数据,并且他们使用加密和未加密的模型进行预测以比较性能。虽然前者跑得比后者慢,但准确度是一样的。
“这是很重要的一点。如果我们没有任何预测模型,我们可以获取交易数据,并在运营中执行新模型的训练。”Bergamaschi说。
对同态加密的研究热情催生了一个将其引入商业的创业公司。
总部位于新泽西州纽瓦克的Duality Technologies最近得到了英特尔风险投资部门的投资,将其同态加密平台定位为“众多”企业(尤其是被监管行业中的企业)的隐私保护解决方案。银行可以跨机构进行隐私保护的金融犯罪调查,该公司的销售宣传也是如此,而科学家可以利用它来研究基于患者就医记录的问题。
但是像联邦学习和微分隐私一样,同态加密也不是没有缺点的。即使是领先的技术也只能计算多项式函数———对于机器学习中许多非多项式的激活函数来说,这是一个非标准函数。另外,对加密数据的操作只能涉及整数的加法和乘法,这在学习算法需要浮点计算的情况下是一个挑战。
巴伦说:“在你可以用10秒来进行推断的项目里,同态加密也可以,但是如果你今天只有3毫秒的周转时间,那就没有办法了。”“计算量太高,这要追溯到工程领域。”
自2014年以来,Bergamaschi和他的同事们一直在试验加速同态运算的硬件方法。从历史上看,带宽一直是最大的绊脚石———虽然加速器单独产生了强大的基准性能,但总体上并不能产生强大的系统性能。这是因为执行操作所需的数据需要处理器和加速器之间的大量带宽。
解决方案可能在于更有效地利用处理器上存储的技术。韩国高级科学技术研究所的研究人员发表的一篇论文主张对所有正常和安全的数据使用组合缓存,并对安全处理器和缓存插入模块使用内存调度和映射方案。
他们说,综合起来,在典型的8核和16核安全处理器中,这两种方法可以将加密性能的下降从25%-34%降低到8%-14%以下,同时将额外的硬件成本降到最低。
保护数据隐私——任重而道远
新技术或许可以解决人工智能和机器学习中固有的一些隐私问题,但它们还处于初级阶段,并非没有弱点。
联邦学习在分布式服务器上训练算法,而不需要交换数据样本,但是在功率、计算和互联网的波动下很难检查和控制。
微分隐私,在保存个人信息时暴露数据集的信息,由于注入噪声而导致准确性下降。
至于同态加密—一种允许对加密数据进行计算的加密形式———它有点慢,计算量也很高。
不过,像巴伦这样的人相信,这三种方法都是朝着正确方向迈出的一步。“这与从HTTP到HTTPS非常相似。”Ballon说,“总有一天,我们将拥有使机器学习中的隐私无懈可击的工具和能力,但我们还没有完全实现。”