Wiztalk腾讯广告专场系列分享第四场:隐私集合交集算法研究

2020-07-03 10:40:31 浏览数 (1)

7月3日晚19:00,我们将邀请南开大学计算机学院副院长、网络空间安全学院副院长、博士生导师刘哲理教授进行主题为“隐私集合交集算法研究”的Wiztalk腾讯广告专场系列分享。欢迎各位聆听。

PC端直播链接:https://withzz.com/live/218

手机扫描下方二维码或点击“阅读原文”可进入本次精彩分享。

(手机扫码可预约直播)

直播内容背景知识

 01

这条广告点击来自哪里?

你有过“感觉仿佛被广告轰炸”的感觉吗?比如苹果的iPhone11发布以后,街边公交站是它的广告,打开社交app有它的广告,打开视频app有它的广告,打开购物app还有它的广告,简直全方位覆盖不留死角。

不过广告投放可并不是这么简单地就结束了,广告主往往都希望能够知道来自不同渠道的广告点击访问分别有多少,以便追踪观察自己的营销和广告投放策略。一种简单易用、广泛通用的做法是,在点击广告之后跳转的页面的URL地址后面添加下面这样格式的参数:

其中用“utm_source=weibo”表示这条点击来自微博,用“utm_medium=social”表示媒体性质是属于社交平台。

这样一旦这个带参数的URL地址被访问了,它也就把访问来源记录下来了。比如XX品牌为A商品在不同平台投放了广告,希望广告点击后都可以指向同一个页面。那么在添加参数之后,不同平台的广告点击之后跳转的页面URL很可能分别是

• 腾讯视频

‐www.xx.com/a_main.html?utm_source=tencentvideo&utm_medium=video

• 微信

‐www.xx.com/a_main.html?utm_source=weixin&utm_medium=social

• 腾讯网

‐www.xx.com/a_main.html?utm_source=qqcom&utm_medium=web

用这样的方式,即便不同平台投放的广告指向的是同一个页面,广告主也能简单清晰准确地了解每次点击的来源,然后用一些常见的流量统计分析工具得到统计结果,了解广告在不同平台的投放效果如何。这样的统计方式也正对应了在线广告的常见广告收费方式之一,“按点击收费”,CPC,广告在不同平台上的点击量既是广告主自己关心的直接业务指标,也是向广告平台付费的核心依据。

 02

这条广告曝光的效果如何?

在线广告还有另一种收费模式,按照广告的曝光收费,CPM,而且CPM也已经成为了主流的广告收费模式。这一方面是因为人(也就是观看广告的潜在客户)的行为是复杂的,他很有可能观看多次广告以后被打动了,产生了购买行为,但他并不是点击广告购买的,这就无法被点击量和点击来源统计覆盖;另一方面也因为广告是复杂的,有相当比例的广告并不直接推销产品,这部分广告更看重宣扬品牌形象、建立消费者认知,并不追求观看者的直接点击购买,也就很难用点击指标为广告定价。

对在线广告平台而言,按照曝光收费是更合理的,毕竟广告平台有能力较准确地控制广告的曝光次数,而点击乃至购买行为就很大程度上受到广告自身的影响了。不过广告平台也希望能够协助广告主了解广告曝光之后的效果,即从广告曝光到广告点击乃至商品购买的转化率如何,或者反过来,购买了某个商品的消费者中有多少曾经看到过平台上曝光的广告。

 03

隐私问题是难关

仍然以XX品牌的A商品为例。消费者购买商品的网购平台记录了A商品的所有订单信息,准确地知道谁买过A商品;广告平台也掌握着广告曝光数据,知道有哪些用户看到了平台提供的A商品的广告。理论上来说,只需要网购平台和广告平台都把数据拿出来核对,找到同时出现在两个平台数据中的用户,就可以准确追溯哪些购买了商品的用户看过广告平台上的广告,从而计算广告曝光效果。

但在实际中,这种直接核对的操作是绝对不可行的。不仅因为网购平台和广告平台经常不是同一家企业,仅仅出于保护商业机密就不可能向对方直接透露信息;更因为这些都是消费者的个人隐私数据,不可以泄露,也不可以用来识别消费者的身份。

不过,追溯广告曝光和购买之间的关系,毕竟有巨大的商业价值,网购平台和广告平台都会对这个结果感兴趣。研究人员们还是希望能够找到一些方法进行计算。

 04

在加密保护下协作利用数据

如何在双方数据都保持保密的前提下计算双方数据的重合部分,也就是寻找数据交集呢?在期刊《Future Generation Computer Systems》上发表的由南开大学、英国密德萨斯大学、腾讯、北京物资学院合作完成的论文《Unbalanced private set intersection cardinality protocol with low communication cost》就提出了一种隐私交集算法来解决。

这个方法的核心是加密。双方都要把数据集中的每一条数据用一定的加密函数加密,加密后的数据对方无法解密、无法读取。网购平台方、广告平台方的加密函数分别是f(x)、g(y),为了能实现加密条件下的数据交集计算,经过精巧的设计让f(x)和g(y)满足交换加密。即:

当数据库中的数据条目x=y时,f(g(y))=g(f(x))

这样,双方只需要把自己的数据库逐条加密再发送给对方,接收到对方发送的加密后的数据库后再进行一次加密,得到了两种不同加密顺序后的结果。加密后的结果不会泄露原始数据,可以直接对比,也就知道了双方数据库的交集大小,完成了广告曝光效果溯源。

 05

挖掘数据交集中的更多信息

除了“完成了购买的用户有多少观看过广告”之外,购物平台和广告平台还可能会对一些相关的其它数据感兴趣,比如上一节中计算交集得到的这部分用户的总消费金额。这个数据的计算更为复杂一点,但论文中也提出了对应的方法,通过加密进行计算,并且仍然保证双方的数据保密,而且得到交集用户消费总金额的同时也依然保证了无法得知这些用户的身份。

在通过加密方法达成目标的这个层面之外,隐私交集算法本身在使用中的安全性也需要经得起检验。在论文中作者们对方法的安全性进行了谈论和验证,证明它足够安全。而且,作者们还考虑了双方不对等的情况,其中一方可以是低功耗的IoT设备,计算能力非常有限,那么它就不需要加密另一方的数据;当广告平台方的数据远多于购物平台方的数据时,算法会具有很高的执行效率。

通过隐私交集算法,不同角色的平台或企业之间可以在数据互相保密的前提下寻找到其中的重合数据,找到隐含的商业价值,比如本文提到过的追溯购买了某产品的消费者中有多少观看了广告平台上的广告,乃至找到交集消费者的总消费金额,就是典型的例子。

关于隐私交集算法的详细介绍以及这篇论文相关的技术讨论,我们将邀请论文作者在wiztalk系列学术视频中为大家讲解。敬请期待。


Wiztalk腾讯广告专场系列分享往期回顾:

基于图神经网络的聚类分析(北邮石川)

回看链接:https://www.withzz.com/live/140

基于大规模张量分解的广告库存预估(中科大张兰)

回看链接:https://www.withzz.com/live/184

鉴别真话假话,人工智能终于也能行了(清华刘知远、周界)

回看链接:https://www.withzz.com/live/204

点击这里,进入Wiztalk直播间

0 人点赞