[AI安全论文] 20.RAID19 基于Android移动设备的互联网流量中的位置数据泄漏分析(译文)

2022-08-31 14:59:42 浏览数 (1)

先祝大家五一节快乐。前一篇介绍了USENIXSec21恶意代码分析的经典论文——DeepReflect,它通过二进制重构发现恶意功能。这篇文章将带来RAID 2019的Android数据泄露分析的译文,是对真实移动设备用户网络流量的实证评估,预测用户兴趣点(POI)的位置,上一篇系统安全文章就提取了恶意功能函数的POI。此外,作者参加了RAID当时在北京的现场分享,亦是当年的读书笔记,故作为在线博客分享出来,希望对您有所帮助。由于作者的英语和学术水平较差,还请大家批评和指正。感恩遇见,一起加油!

本文的实验思路,数据采集及论证方法值得我们学习,以及推断数据泄露的POI及服务关系。从实际安全问题出发,映射为一系列问题并提出应对措施(攻防攻),是常见的安全攻防论文思路,值得学习。

代码语言:javascript复制
原文作者:Nir Sivan, Ron Bitton, Asaf Shabtai 
原文标题:Analysis of Location Data Leakage in the Internet Traffic 
of Android-based Mobile Devices 
中文标题:基于Android移动设备的互联网流量中的位置数据泄漏分析
原文链接:https://www.usenix.org/system/files/raid2019-sivan.pdf 
发表会议:RAID 2019

希望自己能在科研路上不断前行,不断学习和总结更高质量的论文。由于自己很菜,只能通过最土的办法慢慢提升,也请大家批评和指正。最后希望这篇文章对您有所帮助,这些大佬真值得我们学习,献上小弟的膝盖,加油!

文章目录:

  • I.引言
  • 2.基于位置服务的隐私 2.1 基于位置服务的隐私 2.2 POI识别方法
  • 3.威胁模型
  • 4.数据收集 4.1 数据收集框架 4.2 实验 4.3 私隐及道德考虑
  • 5 从原始网络流量中提取位置跟踪 5.1 过程描述 5.2 分析和结果 5.2.1 泄漏范围 5.2.2 泄漏不一致
  • 6 从泄露的位置轨迹推断POIs
  • 7 识别泄漏应用程序
  • 8 缓解策略
  • 9 结论和未来工作

《娜璋带你读论文》系列主要是督促自己阅读优秀论文及听取学术讲座,并分享给大家,希望您喜欢。由于作者的英文水平和学术能力不高,需要不断提升,所以还请大家批评指正。同时,前期翻译提升为主,后续随着学习加强会更多分享论文的精华和创新,在之后是复现和论文撰写总结分析。虽然自己科研很菜,但喜欢记录和分享,也欢迎大家给我留言评论,学术路上期待与您前行,加油~

前文推荐:

  • [AI安全论文] 01.人工智能真的安全吗?浙大团队分享AI对抗样本技术
  • [AI安全论文] 02.清华张超老师 GreyOne和Fuzzing漏洞挖掘各阶段进展总结
  • [AI安全论文] 03.什么是生成对抗网络?GAN的前世今生(Goodfellow)
  • [AI安全论文] 04.NLP知识总结及NLP论文撰写之道——Pvop老师
  • [AI安全论文] 05.RAID-Cyber Threat Intelligence Modeling Based on GCN
  • [AI安全论文] 06.NDSS2020 UNICORN: Runtime Provenance-Based Detector for Advanced Persistent Threats
  • [AI安全论文] 07.S&P19 HOLMES:基于可疑信息流相关性的实时APT检测
  • [AI安全论文] 08.基于溯源图的APT攻击检测安全顶会论文总结
  • [AI安全论文] 09.ACE算法和暗通道先验图像去雾算法详解(Rizzi | 何恺明老师)
  • [AI安全论文] 10.英文论文引言introduction如何撰写及精句摘抄——以入侵检测系统(IDS)为例
  • [AI安全论文] 11.英文论文模型设计(Model Design)如何撰写及精句摘抄——以IDS为例
  • [AI安全论文] 12.英文论文实验评估(Evaluation)如何撰写及精句摘抄(上)——以IDS为例
  • [AI安全论文] 13.英文SCI论文审稿意见及应对策略学习笔记总结
  • [AI安全论文] 14.S&P2019-Neural Cleanse 神经网络中的后门攻击识别与缓解
  • [AI安全论文] 15.Powershell恶意代码检测论文总结及抽象语法树(AST)提取
  • [AI安全论文] 16.CCS2019 针对PowerShell脚本的轻量级去混淆和语义感知攻击检测(经典)
  • [AI安全论文] 17.英文论文Design和Overview撰写及精句摘抄——以系统AI安全顶会为例
  • [AI安全论文] 18.英文论文Evaluation(实验数据集、指标和环境)撰写及精句摘抄——以系统AI安全顶会为例
  • [AI安全论文] 19.USENIXSec21 DeepReflect:通过二进制重构发现恶意功能(经典)
  • [AI安全论文] 20.RAID19 基于Android移动设备的互联网流量中的位置数据泄漏分析

摘要

近年来,我们见证了移动设备向个性化、基于上下文服务的转变。其中许多服务的关键组件是基于设备中嵌入的位置传感器来推断当前位置并预测用户的未来位置的能力。这些知识使服务提供商能够及时向其用户提供相关的服务,并更好地管理流量拥堵控制,从而提高客户满意度和参与度。然而,此类服务存在位置数据泄漏的问题,这已成为当今智能手机用户最关注的隐私问题之一。本文特别关注Android应用程序在用户不知情的情况下,通过互联网网络流量以明文方式暴露的位置数据。

本文提出了一个涉及真实移动设备用户网络流量的实证评估,旨在:

  • (1)测量基于Android的智能手机设备的互联网流量中相关位置数据泄漏的程度;
  • (2)了解这些数据的价值以及推断用户兴趣点(POI)的位置;
  • (3)在现实假设下,推导一个旨在推断用户兴趣点的攻击流程。

本文通过分析71名参与者平均37天的智能手机的互联网流量来实现的。同时提出了一种从原始网络流量中提取和过滤位置数据的程序,并利用地理位置聚类方法来推断用户的POIs。本研究的主要发现集中在这种现象的普遍性和严重性两方面。实验结果表明,超过85%的用户设备泄漏了位置数据,而从相对稀疏的泄漏指标得出用户POI的暴露率约为61%。


一.引言

近年来,在许多领域都出现了个性化服务的趋势。移动设备上提供的服务尤其如此,数以百万计的人每天都在使用大量基于上下文的应用程序(如Yelp、Uber、谷歌地图)。这些设备拥有大量的私人信息,从用户的个人和财务数据到他们的位置数据,使这些设备成为商业个性化广告和情报收集的目标。

这些服务的一个关键特性是能够了解用户当前的位置、推断兴趣点以及基于设备中嵌入的位置传感器预测用户未来的位置。此类知识使服务提供商可以向其用户提供相关的及时服务,例如导航建议、天气预报、广告和社交网络等,从而提高客户的满意度和参与度。获取移动设备位置的方法可以分为以下两类。

基于主机的方法。 已安装的应用程序可以通过探测内置传感器或评估用户在社交媒体上签到时提供的数据来推断设备的位置。能够提供位置数据的本地传感器包括热点(Wi-Fi)信息,例如SSID和BSSID [1],已连接的基站和GPS [2]。该位置也可以通过使用各种侧信道攻击来推断,例如电源差异分析[3]。

基于网络的方法。 移动设备的位置可以通过使用基站信号塔三角测量[4],即通过分析设备所连接的发射塔接收到的信号来使用无线电定位,或者通过分析CDRs来使用无线电定位[5]。这需要对数据的高权限访问,而这些数据通常是服务提供商和执法机构才可以获得的。

为了利用位置跟踪作为有意义的信息源,必须分析数据并将其聚集到对用户很重要的位置集群中,例如家庭、购物或工作等场所[2]。这些位置也称为用户的兴趣点(POIs)。推断用户兴趣点最常见的方法是通过距离和时间阈值对位置轨迹进行聚类;最终,如果用户在同一地方停留的时间足够长,则会生成一个集群。POIs通过了解哪些集群对用户很重要,并忽略不太重要的数据(如交通数据)来识别兴趣点的[6,7]。

在移动设备上收集的位置数据可能由应用程序提供给第三方服务,或者被恶意应用程序泄漏[8]。最近的研究报告指出,在用户不知情的情况下,流行的应用程序在不安全的通信通道上使用会导致很高的个人数据泄漏率。这些研究表明,位置数据是最“流行”的泄露个人身份信息(PII)之一,10%的最流行的应用程序以明文的形式泄露了位置信息[8]。事实上,据Trend Micro称,位置权限是被滥用最严重的Android应用程序权限。在2018年DEFCON研讨会上,这一隐私泄露也得到了承认,当时iOS和Android设备的应用程序都被检测到以未加密的格式发送准确的位置数据。

最近的研究调查了来自合法或恶意应用程序的移动设备用户的隐私风险,这些应用程序被授予访问用户位置的权限。然而,这些工作大部分都集中在分析和量化特定应用程序(或基于位置的服务提供商)的访问,并授予位置数据访问权限的私有数据公开[9-12]。然后在实际情况中,每个移动设备上都安装了多个可以访问位置数据的应用程序。因此,有必要探讨多个应用程序泄漏位置数据对用户隐私的影响。

本文在研究移动设备用户的隐私风险时面临一个主要的挑战是应用程序访问或收集位置数据,这可能需要root权限访问。最近的研究通过在受控环境(如沙箱)中运行应用程序来收集数据[11,12],或者为研究对象提供一个不需要用作其主要设备的替代(根)设备[9]。先前的研究还分析了与能够窃听移动设备通信的攻击者相关的隐私风险。这些工作主要集中在自动识别个人身份信息(PII)。

本研究通过多个应用来研究基于Android的智能手机在互联网流量中位置数据泄露的现象。主要目的如下。

  • 首先,了解设备网络流量中明文传输检测到位置泄漏的数量和质量及其相关性。
  • 其次,分析位置泄漏并推断用户的兴趣点。由于绝大多数现有的POI检测方法都假设了一致且较高的位置采样率(如通过GPS),该任务并非易事。因此,它们不能直接应用于有噪声和稀疏的位置数据中,就像在本研究中关注的数据(即由于移动设备网络流量而泄漏的位置数据)。
  • 第三,从已识别POIs的数量、识别POIs所需的数据量、检测到的POIs的准确率以及在POIs中花费的时间等方面了解用户的隐私暴露程度。

为了实现这些目标,本文收集并分析了71名智能手机用户平均使用时间为37天的互联网流量,并且这些设备都是常规使用的。此外,使用安装在设备上的专用Android代理应用程序来收集移动设备的位置,并对位置传感器进行采样。代理收集的数据被用作移动设备实际位置的基本事实。实验结果显示,超过85%的用户设备泄露了位置数据。此外,根据相对稀疏的泄漏指标,用户POIs的暴露率约为61%。即使位置泄漏率较低(6小时一次)并且覆盖率只有20%(即应用程序访问被泄漏的位置数据的时间的20%),也可以暴露约70%的加权POIs。

综上所述,本文的贡献如下。

  • 首先,探讨了智能移动设备不安全、未加密的网络流量导致的基于位置的数据泄露的范围、数量和质量。本文特别感兴趣的是探索由多个应用程序泄露的位置数据对用户隐私的影响,这种情况以前从未进行过调查。
  • 其次,基于移动设备的真实数据进行实证评价。评估涉及一个独特的数据集,该数据集是同时从设备本身以及从设备发送的网络流量中收集的,从真实用户设备中获取这样的数据非常困难。
  • 第三,提出了一种从移动设备的网络流量中收集、处理和过滤基于位置数据的方法,以推断用户的兴趣点(POIs)。通过修改现有的聚类算法,在稀疏、不一致的数据流上使用POI聚类,并讨论了实验结果和应用过程的有效性。
  • 最后,据我们所知,本文首次提出一个循序渐进的攻击,其目的是在现实假设下泄漏位置数据并从设备的网络流量中推断用户的POI。

二.基于位置服务的隐私

2.1 基于位置服务的隐私

根据GDPR的定义[13],个人数据或个人身份信息(PII)是可以用来识别一个人的任何数据,包括姓名、ID、社交媒体身份和位置。个人身份信息泄漏是移动设备用户主要的隐私问题。除了设备和用户标识符外,位置泄漏也是移动设备中最常见、最广泛泄露的私有数据之一[8]。作为一个恰当的例子,最近的研究表明,使用位置跟踪来消除用户的匿名是可能的[14]。此外,大多数移动应用程序通常会请求位置许可(25%的应用程序使用精确的位置,更多的应用程序使用粗糙的位置)。如果不知道每个应用程序如何使用和处理位置数据,应用程序对位置API的访问将对用户的隐私构成真正的威胁。

表8(附录)提供了该领域的相关工作总结。威胁行为者可以将研究大致归类为威胁行为者,他们滥用网络流量访问权限来泄露用户的个人信息。

相关研究中考虑的第一类威胁参与者包括用户安装在移动设备上的应用程序[1,9-12,16-20]。这些研究侧重于分析已安装的应用程序,或者应用程序进行通信的基于位置服务提供商的私有数据,从而了解用户所面临的隐私风险。这可以尝试通过使用位置跟踪[9]来消除用户的匿名化,推断用户的POIs[9,10,19]或识别其他PII泄漏[11,12,16-18,20]。

在大多数情况下,假定用户已经授予访问私有数据的权限[1, 9, 10, 16, 17, 20]。Razaghpanah等[18]和Song等[19]分析了私有数据对第三方服务(如广告和跟踪服务)的潜在泄露,这些服务通常以添加到应用程序中的库的形式出现。在这些情况下,用户在不知道应用程序中包含的第三方库并且不知道这些第三方服务可以使用和使用数据的情况下,将许可授予安装的应用程序。

为了进行分析,上述研究从实验目的[9, 10]收集了提供给用户的移动设备中的数据,或者在专用移动设备或仿真器上执行受监视的应用程序[11, 12, 19, 20] 。

先前研究中考虑的另一个威胁因素是可以分析在线社交网络中公开可用的位置数据的攻击者。此类数据包括Twitter中的推文元数据,Facebook中的签到信息以及邻近服务。在这些情况下,攻击者通过分析数据来识别用户的POIs[21-24]、移动模式[25-27]和位置[28]。与本文的情况一样,在这些研究中分析的时空位置数据也是稀疏且不一致的。但在本文的研究中,我们考虑了一种不同的攻击者模型,即可以监视和分析从移动设备发送到LBS的网络流量的窃听。

在本文的研究中,我们关注的是能够拦截所有移动设备网络通信的攻击者(威胁参与者),例如ISP、VPN服务提供商或代理(如网络流量的窃听者)。假设此威胁参与者暴露于移动设备上安装的所有应用程序和服务的所有数据泄漏中(而不是针对单个应用程序或基于位置的服务提供商的数据泄漏)。此外,与上面提到的用户主动安装应用程序并授予对私有数据的访问权限的工作不同,在本文的工作中,用户并不知道攻击者可能正在观察网络流量。

先前的一些研究也关注网络窃听攻击者[8, 20, 29]。例如,Taylor等[29]研究表明,通过嗅探知名且下载量很大的应用程序的网络流量,攻击者可以在用户不知情的情况下获取各种个人和设备标识信息,通过搜索预定义的PII字符串(例如,诸如IMEI和MAC地址之类的电话标识符),并在专用手机上运行应用程序,使用专用设置收集网络流量来进行受控实验。

然而,他们没有分析位置数据泄漏的情况。相比之下,在这项研究中,本文的重点是分析真实用户以及用户手机上安装的所有应用程序所拥有和使用的设备中位置数据泄漏的程度。Ren等[8]提出了Recon系统,这是一个基于机器学习技术的系统,用于自动识别以明文传送网络流量的PII;该作者使用可手动标记潜在PII泄漏(包括位置数据)的实际用户拥有的设备,在受控实验室环境(如在沙盒中运行应用程序)中测试了该方法。但是,该作者并没有专注于估计设备上运行的所有应用程序泄漏的位置数据的程度和价值,这是我们研究的重点。此外,为了从原始网络流量中获得关于用户的有价值的信息,本文提供了一个可由攻击者应用的逐步过程。

用于传输PIIs的协议可能容易受到网络攻击,因此无论用户意识如何,都会造成额外的隐私泄露。例如,Ren等[20]通过不安全的HTTP协议对移动应用程序中的数据泄漏进行了回顾,该协议可用于识别用户。作为此过程的一部分,攻击者可以使用作者提供的PII检测器来提高网络流量中位置数据的检测。

综上所述,在本研究中,我们专门针对一个可以监控网络流量的攻击者。在之前的研究中,攻击者并没有考虑到观测数据中的任何噪声,而在本研究中,我们讨论了一个真实的案例,攻击者以完全无监督的方式收集和分析原始网络流量。


2.2 POI识别方法

从聚集的位置轨迹推断有意义的位置是一个研究领域,自从廉价的民用移动GPS设备问世以来,整个领域在迅速发展。这些设备以及智能手机(在适当的导航和采样模式下)已经无处不在,它们具有较高且恒定的采样率。固定数据流的可用性是大多数位置分析研究的一个常见假设。

推断有意义的位置取决于几个主要的系列算法:Ester等引入了DBSCAN[30],这是一种基于密度的空间数据算法,它提供了确定具有未定义形状集群的能力,并且不受特定数量集群的约束,也不使用时间数据作为参数。Birant等将DBSCAN扩展为ST-DBSCAN[31],它不仅使用数据库点的空间数据,还使用更适合时空数据集的时间数据。Kang等[6]提出了另一种方法,根据时间和距离阈值对地点进行聚类,以区分停留点与过境点,从而改善轨迹分析。在当前的研究中,我们将此方法称为“增量方法”。Kang等[6]使用预定义的约束是为了防止由于跟踪之间丢失信息而导致不正确的聚类。Montoliu等[32]通过在跟踪的约束之间添加最大时间约束来处理不一致和丢失的数据。Alvares等[33]提出使用语义数据来更好地理解所收集数据的含义,并且可以使用它们的方法来确定一个地点对用户是否重要。


三.威胁模型

威胁模型是本研究的重点,它是一个能够窃听移动设备网络流量并暴露于以明文传输的个人、敏感信息的攻击者。

先前的研究已经讨论了个人信息泄露和网络流量泄漏的推断。然而,这些研究主要涉及推断静态信息,如人口统计属性或其他个人身份信息,当用户连接到单个恶意热点时可以观察到这些信息。在本文的例子中,由于正在分析一段时间内的位置数据以获取上下文信息,因此从单个热点捕获网络流量是不够的。本文假设一个威胁参与者可以连续捕获用户移动设备的网络流量,这种特殊功能被授予以下威胁参与者:

互联网服务提供商和移动网络运营商(MNOs)。 它们会承受大量用户的网络流量。ISP威胁模型是很强大的,但是我们认为位置数据泄漏本身就是一个很重要的问题,因此应该加以研究。此外,虽然ISP从cell ID中获取位置信息,但其获取的位置非常粗糙。另一方面,从泄露的数据中得到的位置要准确得多。

VPN和代理服务器。 将移动设备的网络流量转发给第三方服务器,也会滥用在网络流量中发送的未加密数据,这些解决方案越来越多地被移动用户用来保护他们的隐私或消费有限的娱乐内容[34]。

类似Tor的解决方案。 该方案常用来保护隐私[35]。在这种情况下,出口节点可以使用位置泄漏数据来公开真实的用户位置(可能还包括用户的身份)。

这项研究的主要目标是估计威胁威胁参与者(如果他们选择滥用此数据)或攻击者潜在的隐私风险。注意,先前的研究(例如[14, 36, 37])证明可以根据位置跟踪信息对用户进行匿名处理。因此,能够监视设备的网络流量并推断用户的POI的攻击者将能够应用类似的方法(以及电话簿和社交网络中公开可用的信息)来破坏用户的匿名性。


四.数据收集

为了探索基于Android的智能手机在互联网流量中位置数据泄漏的程度,我们开发了一个专用的数据收集框架。使用此框架,共收集了71名参与者平均37天的数据。

4.1 数据收集框架

该框架由三个主要组件组成:

  • 一个VPN客户端(用于收集由设备传输到因特网的所有网络流量)
  • 一个专用的Android代理应用程序(可从设备的位置API获取位置数据)
  • 一个轻量型服务器

VPN客户端。智能手机上大量的因特网流量使其无法长时间在设备上本地存储此信息。另外,在本地缓存因特网流量并每天将其传输到远程服务器会增加设备电池、CPU和网络的开销。出于安全方面的考虑,此类操作需要超级用户权限,因此需要对用户的设备进行根处理。由于这些原因,我们选择使用VPN隧道通过专用的VPN服务器重定向流量,在该服务器中可以记录和存储流量。需要指出的是,VPN是Android操作系统提供的唯一用户空间API,可以用来拦截不需要超级用户特权的网络流量。

Android代理(客户端)应用程序。为了了解设备网络流量中明文检测到的位置泄漏的质量,并评估用户的隐私暴露成都,本文开发了一个专用的Android应用程序来获取用户的实际位置。该应用程序使用网络位置提供的程序API,该API利用三个信息源:GPS、Wi-Fi和Cell ID(从蜂窝网络获得)来评估位置。代理应用程序收集的数据被用作用户实际位置的基本事实。将聚类算法应用于移动设备采集的数据是准确有效的,可以推导出用户的POIs[33]。因此,选择使用这种方法作为基线,而不是在提供实际/标记POIs时依赖参与者的(主观)协作。

轻量型服务器。该服务器有两个主要目标。首先,它作为一个应用服务器与Android代理应用程序通信,并将所有位置数据存储在一个数据库中。其次,它充当VPN服务器,与VPN客户端进行通信,记录所有的网络流量,并将其重定向到互联网。为了提供VPN连接并记录流量,我们在该服务器上创建了一个专用LAN(局域网),每个VPN客户机都被分配到LAN中的一个不同的IP地址。互联网流量是使用“tshark”记录的,“tshark”是一种网络分析工具,能够从实时网络流量捕获数据包数据。

我们选择使用这种数据收集方法的原因如下。

  • 首先,因为我们进行的是探索性研究,我们不知道可以期待什么样的数据,也不知道想要提前收集和分析什么样的数据,所以我们希望能够收集设备传输的所有网络流量。
  • 其次,能够从参与者拥有和经常使用的设备收集数据对我们来说很重要。因此,我们不能使用需要根访问的数据收集方法。

这也给我们的研究带来了另一个挑战,即连接网络流量(特别是位置数据)和发送应用程序的能力。最后,因为我们想收集数据很长一段时间,我们跟着之前的研究和选择使用收集的数据由代理用户POIs的作为我们的基线,而不是依赖主观合作的参与者提供实际/标记POIs这将需要在参与者很大的开销。如前所述,这种方法在之前的研究中被证明是准确和有效的。


4.2 实验

本文进行了一项有71位参与者的实验。参与者是位于以色列两个不同城市的两所大学的现任和前任学生。有关参与者的补充信息如下:60%是男性,40%是女性;44%的人年龄在18至24岁之间,56%的人年龄在25至30岁之间;本科生占51%,研究生占49%。

图2展示了不同应用程序安装数量的分布,只关注被授予位置权限的应用程序。可以看到,超过40%的应用程序安装在一个设备上。此外,大多数应用程序安装在不到20%的设备上,只有少数应用程序安装在超过50%的设备上。

表1 探讨安装在参与者移动设备上的应用程序的受欢迎程度

本文还分析了安装在参与者设备上的应用程序的受欢迎程度。可以看出,实验参与者使用的大多数应用程序(如图1a和图1b所示)都非常受欢迎,在全球范围内有超过十亿的安装(见表1)。这些应用程序(例如WhatsApp、Google Maps、Chrome、YouTube、Facebook、Skype和Instagram)不是特定用户个人资料所特有的。此外,由于参与者设备上安装的应用程序的多样性(如图1a、图1b和图2所示),我们认为从本研究中得出的见解是有效的,并且可以推广到其他用户配置文件。

在整个实验过程中,要求参与者在其个人移动设备上安装两个客户端应用程序(VPN和Android监视代理),该过程平均持续37天,具体取决于参与者的实际参与度。为了确保位置采样对电池的影响最小,在大多数实验中,Android客户端每20分钟对位置提供程序采样60秒。此外,服务器已部署在AWS(亚马逊Web服务器)EC2实例上,以确保高可用性。

图1 请求位置权限的参与者之间不同的应用程序安装,对于每个应用程序组(用户和系统)选择前40名

图2 请求位置权限的应用程序之间的不同安装

图3展示了用户参与实验的时间。在实验中观察到代理应用程序的实际位置采样率的分布如图4所示。

图3 用户参与实验的时间(以天为单位)

图4 用户设备上安装代理的实际(平均)位置采样率

注意,我们开发的框架,特别是安装在参与者智能手机上的VPN和监视代理程序,仅用于数据收集、研究和验证,并不被认为是威胁模型的一部分。


4.3 私隐及道德考虑

该实验涉及长时间收集来自真实对象的敏感信息。为了保护受试者的隐私,采取了以下步骤。

受试者自愿参加实验并提供正式同意参加研究。此外,他们充分了解将要收集的数据类型,并允许其随时退出研究。受试者获得一次性报酬作为参与补偿。

对数据进行匿名化处理。在实验开始时,为每个受试者分配了一个随机的用户ID,该UID用作主体的标识符,而不是其实际的标识信息。UID和主体真实身份之间的映射存储在一个保险箱的硬拷贝文档中,在实验结束时销毁了该文档。

在实验过程中,代理与服务器之间的通信是完全加密的。此外,收集的数据存储在加密的数据库中。实验结束时,将数据转移到一个本地服务器(机构网络内)未连接到互联网。仅保留受试者的匿名信息以供进一步分析。基于这些步骤,该研究获得了机构审查委员会(IRB)的批准。


五.从原始网络流量中提取位置跟踪

位置数据可以通过网络流量以多种格式传输,包括显式地理位置坐标、城市或POIs名称、Wi-Fi网络(BSSID)和蜂窝网络数据(Cell ID)。

在本研究中,关注的是明文传输的显式地理定位数据,这样的结构化数据可以(潜在地)提供更精确的位置,更容易提取和分析。如果泄露,会给用户的隐私带来更大风险。

5.1 过程描述

为了自动检测移动设备网络流量中的位置跟踪,我们在IP网络层捕获数据。地理坐标可以用不同的格式表示[38]。执行正则表达式搜索标准Android API[39]表示的地理坐标,它是以下格式的十进制度:xXX.YYYYYYY。本文使用此正则表达式有两个主要原因。首先,这是Android location API的标准格式,因此此类表达式很可能是位置数据。其次,对其他位置数据格式(例如城市名称、POIs和Wi-Fi网络)的手动研究表明,它们可能会显著增加误报的数量。例如,天气预报应用程序发送的城市名称并不表示用户的真实位置。注意,正如Ren等提出的[8],机器学习技术可用于自动识别网络流量内的PII(包括位置数据),然而,这仍然不能确保所识别的数据指示用户的真实位置。

根据数据包捕获时间为每个结果分配一个时间戳。该正则表达式可以检索不具有地理意义的简单浮点数的不相关结果,并且可以出现在网络流量中(如对象在屏幕上的位置)。下一步将应用以下启发式方法来过滤掉不相关的结果。

传出流量过滤器。 从输出流量中提取地理坐标(输入的流量可能包含与用户真实位置无关的地理数据,例如POIs建议和天气预报)。

纬度/经度对过滤器。 仅提取分配有相同时间戳的有效地理坐标对,这是因为坐标由表示位置的纬度和经度的两个值表示。

图5 识别坐标的地理围栏,筛选位于预定义地理区域之外的坐标

图6 所有参与者在网络流量中发现的随机选择地理位置的全球分布

地理围栏过滤器。 过滤超出预定义地理围栏(如给定国家或城市的地理边界)的地理坐标。在本案例中,在数据收集期间,所有用户都位于以色列的地理边界内,因此过滤掉了不在该区域内的所有地理坐标(图5中显示了地理边界)。注意,在一般情况下应用地理围栏过滤器,攻击者可以对泄漏的位置数据执行反向地理编码,并识别最有可能与用户或一组用户相关的地理区域。在图6中演示了这种方法,从泄漏的位置数据(1%)中随机选择的样本执行了反向地理编码。由图可知,大多数样本位于以色列国境内。


5.2 分析和结果

为了评估位置数据泄漏量,必须确定在网络流量中检测到的地理坐标的准确性和正确性。在本文的实验中,可以将网络流量中检测到的地理坐标与代理应用程序(安装在参与者的手机上)采样的位置数据进行比较。通过对agent应用程序采集的数据进行分析,发现该位置的采样率只有70%(位置采样率的分布如图4所示)。可能的原因是设备关闭、代理关闭或位置服务禁用。根据上述观察,将给定用户的活动时间定义为代理观察至少一个位置样本的小时数。

验证泄漏样本的正确性。 使用代理观察到的位置样本,验证了在网络流量中检测到的地理坐标。具体来说,只有在以下情况下,网络流量中观察到的位置才被归类为“真实的”位置:(1)检测到坐标的时间戳在代理应用程序采样的位置的预定义时间阈值内,并且(2)两个坐标之间的距离低于预定义的距离阈值。如果检测到的坐标的时间戳与代理应用程序采样的位置足够接近(在时间阈值内),则将检测到的坐标标记为“false”;否则,将其标记为“unknown”。本文将距离阈值设置为250、500和1000米,将时间阈值设置为10和30分钟(参见表2),并测试了泄漏位置数据的标记。不出所料,当增加距离或时间阈值时,更多泄漏的位置坐标将被标记为“true”。另一方面,这样做可能会导致标记错误。因此,选择使用最严格的标签规则,其中距离阈值设置为250米,时间阈值设置为10分钟。

泄漏的位置数据量。 在所有被监视的移动设备的网络流量中,总共识别出约474K的地理位置(符合标准API位置正则表达式)。应用地理围栏滤镜后,大约还有347K地理位置。

表2 距离阈值为250、500、1000米,时间阈值为10、30分钟时标注泄漏位置数据的结果

图7显示了应用纬度/经度对过滤器(左列)以及应用纬度/经度对过滤器和传出流量过滤器(右列)之后在网络流量中检测到地理位置的分类。每列都会根据上述标记过程显示其余地理位置的标签分布(“true”,“false”和“unknown”)。在使用纬度/经度对过滤器后,总共剩下257K个地理位置,其中36%被标记为“true”,47%被标记为“false”,其余则无法标记。在应用发送流量过滤器后,还保留了100K个地理位置,其中58%被标记为“true”,11%被标记为“false”,剩下的不能被标记。

图7使用经/纬度对过滤器以及同时应用经/纬度和传出流量过滤器之后,在网络流量中检测到的地理位置分类

这些结果支持本文的假设,即传入流量不太可能包含移动设备的相关地理位置。还可以看到,应用了所有三个过滤器后,可以标记为“ true”或“false”的地理位置中有85%表示移动设备的真实位置。我们可以假设无法标注的地理位置也存在相同的值(即“未知”)。

数据泄漏速率。 通过分析71位用户已验证的地理位置(即标记为“true”),我们可以看到其中大约90%的移动设备正在泄漏了位置信息。一个给定用户设备的数据泄漏的速率由通过已验证的泄漏位置的数量除以用户的活动时间来计算的。本文将计算出的泄漏率分为以下几组:“高”、“中”、“低”和“无泄漏”,如表3所示。从表3可以看出,55%的设备以中等速率(每1~6小时一次)或高速率(每1小时一次)泄漏位置数据。


5.2.1 泄漏范围

将暴露小时定义为收集数据(网络或代理)中至少检测到两个有效的位置泄漏的小时。为了分析相关已验证的泄漏位置数据随时间的覆盖率,将覆盖率度量定义为网络流量暴露的总小时数除以代理数据的总小时数(不包括该代理未工作的时间),公式如下所示。

假设高覆盖率会导致用户重要位置的高曝光率和高发现率。图8展示了收集到数据集中移动设备的覆盖率分布。可以看出,近70%的用户覆盖率在0.2以下。

图8 覆盖率度量的分布。覆盖率度量被定义为网络流量暴露的总小时数(即观察到位置泄漏的小时数)除以代理程序应用程序数据的小时总数


5.2.2 泄漏不一致

尽管表3和图8给出了位置数据的总体平均泄漏率,但对数据的人工检测表明,泄漏的数据表现出不一致、不均匀和突发的行为。例如,图9描述了代理应用程序观察到的单个用户每小时的位置样本数量(蓝色线)和网络流量内的位置样本数量(黑色线)。可以看出,虽然代理的采样率相对稳定(每小时大约12个采样),但不包括微小的变化(如电话关机或代理崩溃),但网络流量中泄漏的位置数据不稳定,从只有很少或根本没有泄漏的概率很高。

图9 设备上安装的代理(蓝色线)和网络流量(黑色线)中观察到的单个用户位置泄漏率的示例

因此,为了分析和理解泄漏的位置数据量的不一致性,通过将“每小时泄漏”的标准偏差除以“每小时泄漏”的平均次数来计算每个移动设备的相对标准偏差度量。图10为移动设备相对标准差测度值的分布情况,其中0表示恒定的泄漏率。

我们还想了解白天位置泄漏数据的分布情况。如图11所示,一天中不同时间段的泄漏率和参与者白天的正常活动(如晚上睡觉、上课和午休)有关。

表3 不同移动设备的泄漏率。由表可知,有55%的设备以中等速率(每1至6小时一次)或高速率(每1小时一次)泄漏位置数据

图10 由泄漏相对标准偏差测量值指示的泄漏率变异性

图11 一天中不同时间(小时)内的位置泄漏率(百分比)


六.从泄露的位置轨迹推断POI

本文还希望了解攻击者如何从检测到的移动设备网络流量泄漏的地理位置(坐标)中推断出有意义的信息。具体来说,识别用户的POIs并将其与传输或噪声数据区分开[40]。

识别停留点或POIs最常用的方法是应用聚类算法,这些算法通常不会绑定到预定数量的集群(如k-means),并根据空间或时空参数对停留点进行聚类。在本研究中,选择了三种不同的算法:

  • 增量聚类
  • DBSCAN
  • ST-DBSCAN

这些算法通常会对数据做一些假设。具体来说,假设数据以恒定的速率到达,这在本文的情况下是不正确的。因此,我们对算法做了一些修改。

首先,对于增量算法,通过计算样本之间的时间来添加时间概念,并定义时间间隔的界限。算法1给出了修正增量算法的伪代码(详见聚类过程)。可以看出,该过程接收三个输入:距离阈值(用D表示),时间阈值(用T表示)以及按其时间戳排序的位置采样列表(用WP表示)。距离阈值指定群集中心到给定位置样本之间的最大距离(以米为单位)。如果该距离小于距离阈值,则将位置样本添加到集群中(第13-17行);否则,它被认为是另一个集群的实例,或者是过渡状态。时间阈值指定将路径点列表视为集群的最小时间。如果该时间大于时间阈值,则将路点列表视为一个集群(第18-21行),否则不被视为集群。

算法1:具有回溯和时间约束的增量聚类

其次,对于增量算法和ST-DBSCAN算法,应用一个回溯过程对创建的群集进行迭代,并合并距离阈值内的群集(第28-36行)。回溯过程的主要好处是可以随着时间的推移增加重复集群的置信度。

另一种方法是使用语义数据来确定用户何时在重要位置。例如,位置跟踪将一个著名的地标处标识为该用户的一个重要位置[33]。这种方法与本文的情况无关,因为POIs事先是未知的。然而,本文使用来自反向地理编码的语义数据来消除公交地理位置(例如高速公路)。

在完全无监督数据中应用聚类算法时,其主要挑战之一是正确选择参数(即距离和时间阈值),因为这些值直接影响算法检测到聚类的数量和大小。为了解决这一挑战,本文测试了几个时间阈值(15、30和60分钟)和距离阈值(100、250和500米)。

注意,我们没有关于用户的真实(已确认)POIs的任何信息,以便了解在网络流量的泄漏位置识别出的POI的性质和有效性。因此,通过对Android代理位置数据(记作增量代理)应用增量聚类算法来确定POIs,以此作为基准和基础事实。由于移动代理应用程序收集的位置跟踪信息可以高精度地指示用户的真实位置,并且POIs聚类方法在以前的工作中已证明是有效的,因此本文发现此基准足以满足我们的目的。

在表4中,介绍了针对不同距离和时间阈值的增量算法检测到的聚类类簇(POIs)的数量。可以看出,减小距离和时间阈值会产生大量的群集,而增加距离和时间阈值则会产生较少的群集。尽管如此,可以看出不同的参数并不影响检出率。对于剩下的评估,将算法的阈值设置为500米和30分钟。

表4 当选择不同的距离和时间阈值时,增量算法检测到的簇数(POIs)

通过将不同的聚类算法应用于网络流量的泄漏位置(表示为增量流量、DBSCAN流量和ST-DBSCAN流量)来识别POIs,并将其与基于代理(即增量代理)的POIs进行比较。

本文计算了在每个用户POI上花费的总时间,并根据用户在所有POI中所花费的总时间中所占的比例,分配了代表POI重要性的权重。

POI检出率。 使用增量代理方法总共识别了1053个POIs(在所有用户中)。对于每个基于流量的方法,计算:(1)已识别出的POIs总数;(2)真阳性(也采用增量代理方法检测到的POIs数量);(3)准确率(真阳性除以已识别的POIs总数);(4)召回率(真阳值除以通过基准方法确定的POIs数量,即增量代理)。

此外,先前有关位置数据分析的工作表明,可以使用先前获得的语义信息(如地标、购物中心、道路等)来确定位置轨迹是用户的POI还是中转位置[33] 。因此,为了进一步改进POI推断过程,我们使用了先前获得的语义信息,以便更好地确定实际POIs。具体来说,使用Google的反向地理编码API来删除位于高速公路上的地理位置集群(即POI)。

结果显示如表5所示。可以看出,召回率表示所有方法POI的发现率,其值约为20%。与其他方法相比,增量流量方法产生的效果最好,召回率略低,但准确率更高。括号中的值表示使用此语义信息时检测到的POIs的结果(真阳性、精确率和召回率)。由表可知,使用语义信息消除不相关的位置簇可以提高精确率,而不会影响召回。这可以通过以下事实来解释:由于网络流量中的位置泄漏较低且不一致,因此无关的位置群集(例如高速公路)在网络流量内的反映得较差,但被代理更好地捕获了。

表5 当将增量代理作为用户POIs的基本事实,三种方法(增量流量、DBSCAN流量、STDBSCAN流量)的召回率和准确率。括号内的值表示使用语义信息时检测到的POIs的结果

在真实场景中,攻击者将无法将提取的地理位置标记为“true”、“false”或“unknown”(如第5节所述)。因此,在表5中,将聚类算法应用于所有地理位置。然而,为了评估攻击者可能获得的最佳结果,我们只对用户的“true”地理位置应用POI识别过程。在这种情况下,增量流量聚类方法实现了类似的召回率,但是其精度显著提高到95%。

识别25%的POIs的重要性。仅识别出POIs的数量并不一定能很好地估计用户所在位置的暴露率。例如,假设一个用户有十个不同的重要位置(POIs)。如果用户将其50%的时间都花费在家里,35%的时间用于工作,通过确定用户的住所和工作地点,能够确定用户将其85%的时间花费在这些位置(尽管我们只发现了20%用户的POIs)。

因此,为了估计所标识位置(POI)的重要性,本文进行了如下的POI检测率的加权度量计算。

对于检测到的每个POI,计算用户在该位置花费的相对时间(即用户在POI上的总时间除以用户在所有POI上花费的总时间)。POIs的加权度量是根据基线增量代理方法计算得出的。然后,使用为每个识别出POI计算的权重来计算POI发现率度量。表6中显示的结果表明,中度和高度泄漏率下的加权POI发现率较高,加权POI的暴露率总计为61%。

表6 增量流量方法的POI和加权POI发现率。POI发现率是在网络数据中发现的位置数除以通过增量代理方法发现的位置数。加权POI发现率是在标识的POIs上花费的总用户时间

攻击。 综上所述,能够窃听用户网络流量的攻击者可以采用以下分步攻击来推断用户的POIs(从而揭示其身份)。

  • 首先,攻击者使用正则表达式或预先训练的机器学习模型识别出站网络流量内的地理坐标。
  • 接着,攻击者在所标识的坐标上应用纬度/经度对和地理围栏过滤器。
  • 最后,攻击者将本文提出的增量流量聚类算法应用于剩余的地理位置(在应用了过滤器之后),以识别用户的POIs。

在真实场景中,攻击者没有基准可以关联,并且仅根据捕获的数据来推断用户的POI暴露率。通过推导回归模型(表7)可以看出,用户加权POI暴露率参数与泄漏量和覆盖率指标具有高度相关性,而与相对标准差则相关性不显著。因此,攻击者可以根据分析出的流量来计算泄漏率和覆盖率,并估算用户POIs的潜在暴露率。

表7 从网络流量测量中估计POIs暴露率的线性回归模型


七.识别泄漏应用程序

本节分析的目的是确定哪些应用程序要对位置数据的泄漏负责,以及是否由于故意滥用或良性应用程序以明文形式发送泄漏而导致泄漏。

获取此类信息的一种方法是实时监视已安装应用程序的传出流量[17, 41]。但是,从Android 8.0版开始,此类操作需要超级用户权限(这需要对用户设备成为root用户)。在本文的实验中,分析了用户个人设备的网络流量,因此这种方法是不可取的。

从捕获的网络流量中获取有关泄漏的应用程序的信息也具有挑战性,主要有以下三个原因:

  • (1)捕获的网络流量未提供一个明确的指示发送应用程序/服务;
  • (2)由于使用云服务和内容分发网络,许多目的地ip承载服务,如AWS, Akamai或谷歌;
  • (3)位置数据可以通过许多Android应用程序中嵌入的组件发送到广告和情报服务领域。

鉴于此,本文选择分析HTTP通信流中观察到的目标主机名,特别关注包含位置泄漏的传出流量。通过从包含泄漏位置数据的HTTP请求中提取主机名,确定了112种不同的服务。然后,我们使用公共安全服务(如VirusTotal)、搜索引擎(谷歌和Whois)和安全报告来分析主机名。

根据分析结果,通过报告的使用情况(如天气预报、导航、位置分析)对每个主机名进行分类,并判断它是合法的还是有害/可疑的服务。位置使用情况明确/合理且未报告安全问题的服务被归类为“良性”,其余服务被归类为“可疑”。

图12 显示按类别(颜色)和可疑程度(圆圈大小)分类的前12个主机名。x轴表示检测到的泄漏事件的平均数量,y轴表示向该主机名发送位置数据的参与者数量。

图12 显示了按类别(颜色)和可疑程度(圆圈大小)分类的前12个主机名。每个主机名根据检测到的泄漏事件的平均数量(x轴)和向该主机名发送位置数据的参与者数量(y轴)放置在图中。

其中一些可疑域名包括samsungbuiasr.vlingo.com,该域名曾作为称为Vlingo的三星预装语音识别应用程序发布。此应用程序被发现正在泄漏敏感信息。其他示例包括域n129.epom.com和mediation.adnxs.com,据报道这些域可提供个性化广告。另一个重要的可疑域是app.woorlds.com,这是一个位置分析服务。

有趣的是,我们的分析得出的结论是,Google Maps JavaScript API (Maps.googleapis.com)允许Android应用程序开发人员根据用户位置定制地图,它还负责以明文发送位置数据。这一点特别值得注意,因为Google建议应用程序开发人员尽可能使用安全的Maps JavaScript API(通过HTTPS操作)。尽管如此,该分析表明,开发人员在实践中还使用了不安全的Map JavaScript API。总体而言,根据分析的数据发现,不受欢迎的服务集合造成了60%以上的位置泄漏事件。

另一个观察结果是,尽管每个主机名的位置数据泄漏事件(图12中的x轴)的数量并不高,但是根据第6节中的分析,仍然能够从数据中识别出用户的重要POIs。本文将此发现归因于以下事实:每个智能手机上都安装了多个应用程序,这些应用程序一起泄漏了足够多的信息,可以对这些信息进行分析,从而推断出POIs。

尽管泄漏的应用程序的身份未在网络流量中明确指出,但我们进行了进一步的分析,试图将识别出的主机名与用户移动设备上安装的应用程序链接起来。为此,首先使用Android代理提取了安装在需要位置和网络权限的用户移动设备上的所有应用程序的集合。接着,为由应用程序和主机名组成的每对计算一个改进的tf-idf值。

tf-idf是文本分类领域中一个著名的度量标准,在信息检索和文本挖掘中经常被用作一个加权因子[42]。tf-idf是一个数值统计,旨在反映特征(单词)对集合或语料库的重要性。tf-idf值与单词在文档中出现的次数成比关系,但是它被单词在语料库中的频率所抵消,这有助于调整某些单词在一般情况下出现得更频繁的事实。在我们的示例中,文档是主机名,单词是应用程序。应用程序a相对于给定主机名h的词频TF计算如下:

其中Uh表示确定其位置泄漏(从他们的设备到h)的用户集合,Uha表示Uh在其设备上安装了应用程序a的用户子集。

应用程序的逆文档频率(用IDF表示)计算如下:

其中Ua表示在设备上安装了应用程序a的用户集,U表示所有用户的集合。综上所述,应用程序对给定主机名的tf-idf计算如下:

将逆文档频率(IDF)限制为1的原因是为了防止罕见的应用程序获得很高的tf-idf分数,从而错误地链接到主机名。此外,将min-max归一化应用于应用程序的tf-idf分数,以使它们保持在0到1的范围内。应用程序A相对于主机h的高tf值表明,在以明文向h传输位置数据的设备中经常观察到A。

另一方面,如果a的idf值很高,则表示通常不会在设备上频繁观察到a。因此,针对主机h的应用程序a较高的tf-idf分数可能表明a与h的位置泄漏有关。

图13 每个主机名和应用程序的tf-idf值

该分析的原始结果显示在图13中,显示了每个主机名(x轴)和应用程序(y轴)的tf-idf值。基于这些结果,将应用程序分为两类。

第一类包括将位置数据发送到其自己的托管服务的应用程序。

  • 在此类别中,可以找到多个HTC、LG和Samsung预安装的应用程序,它们与自己的托管服务有关(htc2.accu-weather.com,lgemobilewidget.accu-weather.com和samsungbuiasr.vlingo.com),也与它们的托管服务相关的GetTaxi(com.gettaxi.android)和Easy(easy.co.il.easy3)应用程序(分别为location.gtforge.com和easy.co.il)。

第二类包括将位置数据发送(通过集成的“软件插件”)到第三方服务的应用程序。

  • 例如广告API(n129.epom.com)或分析服务(app.woorlds)。在这一类别中,我们确定了一个受欢迎的学生应用程序,名为com.mobixon.istudent。

本文还确定了将位置数据发送到Google Maps服务的应用程序,其中一些可能以不安全的方式(HTTP协议而不是HTTPS协议)使用Google Maps JavaScript API。


八.缓解策略

为了降低本文中所提出的位置泄漏和POI推断的隐私风险,本文提出了以下对策,并在今后的工作中进一步研究和发展。

  • 意识。最基本的方法是提高移动设备用户对此类风险的认识,并为他们提供降低风险的工具和手段[43]。例如,通过只安装受信任的应用程序(来自受信任源),监视和限制敏感权限(如位置和互联网访问)以及在设备不使用时禁用位置服务并只在需要时打开它来降低风险。还可以使用Recon[8]和LP-Doctor[10]之类的工具,通过显示警报并提供覆盖敏感传输信息的能力来提高用户对隐私风险的意识。
  • 操作系统策略和工具。Android操作系统提供了内置的标准安全解决方案特性,如隔离、加密、内存管理以及用户授予的手机资源和传感器的权限。一旦用户授予了权限,PII处理就完全由最佳实践建议完成[44]。这可能包括对发送敏感信息(如通过互联网的位置)的应用程序进行加密,或应用诸如PrivacyGuard[19]之类的工具,该工具是基于VPN的解决方案,可以检测网络流量上的数据泄漏,修改泄漏的信息以及将其替换为旨在保护隐私的数据。MockDroid[45]和LP-Guardian[46]等其他工具可用于阻止应用程序在运行时访问位置传感器。此外,未来的Android操作系统可以考虑通过允许用户决定涉及敏感数据的后台操作来改善隐私。
  • 监控。文献[8]提出了监视第三方安全提供商的网络流量以检测PII泄漏的方法,这对于识别滥用用户私人信息的应用程序是一种有用的方法。所提出的Recon应用程序[8]还允许用户用用户选择的另一个值替换传输的数据。
  • 匿名化和PII混淆。文献[47-53]提出了各种技术和算法来保证LBSs中的K匿名性。大多数方法都依赖于代理,它在将用户的位置数据发送到LBS之前对其进行筛选、操作或泛化。当LBS需要精确或频繁的定位样本来提供服务时,这种方法很难应用。此外,这些技术没有考虑到敌手访问多个LBSs位置数据的唯一威胁模型。Puttaswamy等为了保护客户端设备的隐私,提出LBSs应该将应用程序功能转移到客户端设备上。然而,这是不切实际的,因为在大多数情况下(特别是对于免费应用程序或第三方SDK),收集个人数据(如位置)是LBS的主要业务模型。

一种替代方法可以是安装在移动设备上的应用程序形式,该应用程序监视网络流量上的位置采样或位置泄漏,并智能地注入欺骗性位置,这可能使威胁参与者难以推断用户的真实POI 。

由于一方面要向基于位置的应用程序或服务提供所需的位置数据,另一方面要保护用户隐私,因此存在固有的权衡取舍,因此本文认为应采用以下一种隐私保护解决方案:

  • (1)实施在操作系统级别,可以查看所有正在运行的应用程序,并且可以应用访问控制策略以及混淆技术;
  • (2)自动化程度低,用户参与度低,决策过程简单;
  • (3)根据本文的研究建议,它不仅应该通过单个应用程序来分析隐私暴露级别,而且还应该从整体上看待网络流量,以降低网络窃听者攻击者的风险;
  • (4)应用智能机器学习技术来自动识别位置数据和其他PII泄漏,从而对应用程序进行性能分析,以了解每个应用程序所需的位置数据的粒度级别,并智能地混淆从传输的数据推断出的POIs。

由于本研究的实验设置很复杂且耗费资源和时间,因此我们选择保留防御方法的设计、开发和评估,尤其是将PII模糊处理作为对抗性学习方法应用于聚类算法[55],以备将来研究。


九.结论和未来工作

本文展示了移动设备的位置泄漏程度,并提出了一个从原始网络流量中提取位置跟踪的系统过程。

  • 分析了三种地理聚类方法在不一致网络流量数据上的应用结果,表明现有的算法即使在位置数据不一致的情况下也能产生良好的结果;这使得任何用户的位置隐私都很容易受到攻击,即使位置泄漏率很低。
  • 本文的工作通过监控网络流量来实现位置暴露评估,并发现即使相对较低的位置泄漏率(6小时一次)和仅20%的覆盖率也可以暴露约70%的加权POIs。

在未来的工作中,我们打算进一步实现自动化POI识别过程,通过自动设置聚类算法参数,评估的泄露数据可用于预测未来用户的位置,并开发一个基于敌对学习技术的缓解方法,将基于最小数量的错误注入到以明文传输的网络流量位置中,从而实现为了欺骗或基于聚类算法的个人身份信息混淆。

窗外泛起了鱼肚白,你见过凌晨五点珞珈山的天空吗?忙完课题,接着通宵整理即将汇报的论文材料。女神第一次来汉,陪伴我赶PPT,心疼&心安。哪有岁月静好,只有砥砺前行。希望这篇翻译对您有所帮助,由于英文比较差,很多不足或错误的地方,还请您们批评指正,早安娜。 ——纪2019年11月的某周末奋斗的日子

(By:Eastmount 2022-05-02 夜于武汉)

0 人点赞