KDD 2020最佳学生论文奖解读！杜克大学陈怡然组获奖

作者 | 姜蔚蔚

编辑 | 陈彩娴

第 26 届 ACM SIGKDD 知识发现和数据挖掘会议（KDD 2020）于近日公布了最佳论文奖、最佳学生论文奖等多个奖项。此外，汤继良、盛胜利、唐杰等华人学者在本届 SIGKDD 大会上也荣获了包含新星奖、时间检验研究奖、时间检验应用科学奖在内的三项大奖。

更多内容可移步“KDD 2020 全部大奖出炉！杜克大学陈怡然组获最佳学生论文奖”一文。

其中最佳学生论文第一作者李昂是杜克大学电子和计算机工程系的一名在读博士，导师为陈怡然教授。李昂曾在2013 年获得北京大学软件工程硕士学位，2018 年获得阿肯色大学计算机科学博士学位。

获奖论文：《TIPRDC: Task-Independent Privacy-Respecting Data Crowdsourcing Framework for Deep Learning with Anonymized Intermediate Representations》

论文链接：https://arxiv.org/abs/2005.11480.pdf

背景

大规模数据集是深度学习大获成功的重要原因之一。这些数据很多情况下都是通过众包的方式从用户那里收集的。

然而在收集的过程中，这些数据中不可避免地包含了用户的隐私信息，例如性别、年龄等。这些隐私信息有可能被数据收集者误用，甚至更严重的情况下被恶意滥用。近几年来，各种互联网公司信息泄露的事件让人们意识到了保护个人隐私的重要性。

因此如何在保护个人隐私的前提下，收集数据用于训练深度神经网络模型就成为了最近的重要研究课题。

过去的相关研究在效用和隐私之间进行权衡。一类常见的方法是从原始数据中提取任务所需要的特征，然后用户仅仅上传特征。然而提取出的特征容易恢复出用户的原始数据和隐私信息。

为了使得原始数据难以恢复，研究人员又进一步提出在提取出的特征中人为加入噪声，但这种方式使得学习任务的表现大大降低。更重要的是，这些方法都是针对某个特定任务提取相应特征的，然而在实际的数据收集过程中，学习任务可能是不知道的或者是会变化的。

针对这个问题，这篇论文的目标是设计一种方法，能够从用户的原始数据中抽取一种中间表示，在去除隐私信息的同时保留学习任务所需要的判别特征。

这篇论文提出的TIPRDC框架如图1所示。用户可以在本地运行特征抽取器，并且仅将那些中间表示提交给数据收集器，而无需提交原始数据。然后，数据收集器使用这些收集的中间表示来训练DNN模型，但是数据收集器和对手都无法准确地推断出任何受保护的私人信息。

这篇论文提出一个隐私对抗训练（PAT）算法来隐藏特征中的隐私信息，该算法可模拟试图从提取的特征中推断出私人属性的对手与旨在保护用户隐私的防御者之间的博弈。原始信息通过应用这篇论文提出的MaxMI算法得以保留，该算法旨在最大化原始数据的特征与私有信息与保留特征的并集之间的相互信息。这篇论文通过三个数据集上的对比实验，验证了TIPRDC在效用-隐私权衡方面的优越性。

图1. TIPRDC的框架图。

模型和算法

TIPRDC是根据两个目标来设计的：

目标1：确保抽取的特征不传达任何隐私属性；
目标2：保留尽可能多的原始数据信息，以维护主要学习任务的效用。

图2. 特征抽取器的理想输出。

图3. 用来训练特征抽取器的混合学习方法。

算法1. 混合学习方法。

实验

这篇论文在两个图像数据集（CelebA和LFW）和一个文本数据集（DIAL）上进行了实验。用到的数据集如下：

（1）CelebA [1]：人脸数据集，包含了160K训练图片和40K测试图片；

（2）LFW [2]：人脸数据集，包含了10K训练图片和3K测试图片；

（3）DIAL [3]：推特数据集，包含了280万用户的5920万条推特，其中4800万作为训练集，剩下的1120万作为测试集。

TIPRDC基于PyTorch实现，具体的网络配置分别见表1和表2。给定一个主任务，一个模拟的数据收集器会在特征抽取器抽取到的特征上训练一个分类器。抽取出的特征的效用和隐私分别通过主任务的分类准确率和指定的隐私属性来评估。

表1. 用于CelebA和LFW的每个的结构配置。

表2. 用于DIAL的每个模块的结构配置。

这篇论文采用了以下基准模型作为对比：

（1）Nosiy：在原始数据中加入高斯噪声；

（2）DP：在原始数据中加入拉普拉斯噪声；

（3）Encoder：利用编码器学习原始数据的潜在表示；

（4）Hybrid：在潜在表示上进一步加上主成分分析和拉普拉斯噪声。

对于CelebA数据集，gray hair和smiling属性作为分类的任务，而young和gender属性作为要保护的隐私；对于LFW数据集，black hair和eyeglass属性作为分类的任务，而gender和Asian属性作为要保护的隐私。

这篇论文首先评估了不同方法在分类任务上的效用与隐私保护之间的权衡，结果如图4所示，其中使用的。Encoder方法可以取得很好的分类效用，但是没法保护隐私；而其他3种基准方法在保护隐私的情况下牺牲了太多分类的性能。与他们相比，这篇论文提出的TIPRDC取得了更好的效用-隐私权衡。

图4. TIPRDC与四种基准方法在CelebA和LFW数据集上的效用-隐私权衡比较。

图5给出了在CelebA和LFW数据集上参数的影响。学习任务的分类精度将随着λ的减小而增加，但隐私保护将被削弱。进一步的，这篇论文在图5中对参数在CelebA保护“性别”属性时的影响进行了可视化。图6中将特征抽取器提取的特征作为输入，通过一个解码器重建图像。参数越小，可以重建含有更多信息的图像。

图5. 在CelebA和LFW数据集上，参数的影响。

图6. 在CelebA保护“性别”属性时，参数的影响可视化。

考虑到在实际应用过程中，我们并不知道对抗分类器的具体结构，因此在TIPRDC训练过程中使用的分类器和实际的对抗分类器的结构可能会不一样。因此这篇论文又设计了三种不同结构的对抗分类器，如表3所示。在CelebA数据集上以识别smiling为主要任务，保护gender属性的情况下，不同结构的对抗分类器取得的gender属性分类结果如表4所示，可以看出不管对抗分类器的结构如何，隐私都能够得到有效的保护。

表3. 消融研究中对抗分类器的不同参数配置。

这篇论文进一步评估了TIPRDC的可迁移性。TIPRDC会在收集用户数据之前就训练特征抽取器，因此特征抽取器的可迁移性决定了系统的可用性。这篇论文在CelebA或LFW中的一个数据集上进行特征抽取器的训练，再评估另一个数据集上的效用-隐私权衡。Black hair作为要分类的属性，gender作为要保护的隐私。

结果如表5所示，跨数据集的评估并没有性能的明显变化，显示了TIPRDC具有很好的可迁移性。由于CelebA数据量更大，可以训练出更有效的特征提取器，因此迁移到LFW数据集上时，效用得到了提升（从88.12%变化到了89.27%）。

最后这篇论文也在DIAL数据集上进行了评估，结果如图7所示，得到了与CelebA或LFW类似的结果。

图7. 在DIAL数据集上，参数λ 的影响。

结论

这篇论文提出了一个与任务无关的尊重隐私的数据众包框TIPRDC，其中的学习特征提取器可以在隐藏隐私信息特征的同时最大程度地保留原始数据中的有用信息。

通过应用TIPRDC，用户可以在本地设备使用训练过的特征提取器从原始数据提取特征，并且数据收集器将仅获取提取的特征，以训练用于主要学习任务的DNN模型。在三个基准数据集上的评估表明，TIPRDC比现有解决方案取得了更好的隐私实用性折衷。在CelebA和LFW上进行的交叉数据集评估还显示了TIPRDC的可迁移性，进一步验证了TIPRDC的实用性。

参考文献：

[1] Ziwei Liu, Ping Luo, Xiaogang Wang, and Xiaoou Tang. 2015. Deep Learning Face Attributes in the Wild. In Proceedings of International Conference on Computer Vision (ICCV).

[2] Neeraj Kumar, Alexander C Berg, Peter N Belhumeur, and Shree K Nayar. 2009. Attribute and simile classifiers for face verification. In 2009 IEEE 12th International Conference on Computer Vision. IEEE, 365–372.

[3] Su Lin Blodgett, Lisa Green, and Brendan O’Connor. 2016. Demographic dialectal variation in social media: A case study of African-American English. arXiv preprint arXiv:1608.08868 (2016).

tcp/ip 学习方法

0 人点赞