期待已久的2020腾讯广告算法大赛终于开始了,本届赛题“广告受众基础属性预估”。本文将给出基本解题思路,以及最完备的竞赛资料,助力各位取得优异成绩!!!
报名链接:https://algo.qq.com/signup.html?rfisource=DSFISH
写在前面
今年赛题较往届还是有很大的创新,是目前计算广告领域热门话题,很值得尝试和挑战。
在整个2020腾讯广告算法大赛进行阶段,我也会分享更多解题思路,相关经验分享,帮助大家在比赛中更快成长进步。
大赛官网:https://algo.qq.com/signup.html?rfisource=DSFISH
本文将分为以下三个部分:
- 2020腾讯广告算法大赛介绍:不同于往年,今年赛题有很大变化
- 基本解题思路分享:赛题理解、基本方案分享
- 往届赛题数据整理:历年腾讯赛的数据集和相关介绍
- 往届赛题方案整理:top方案、干货分享、梳理内容
2020腾讯广告算法大赛
- 大赛介绍
腾讯广告算法大赛步入第四年,已经为来自海内外的企业和研究人员提供了富有研究价值和应用价值的议题,有效地推动了产学研的交流与融合。本届算法大赛的题目“广告受众基础属性预估”兼具实用性和趣味性,从广告行业的经典假设出发,逆向验证这一命题的科学性。参赛者需要探索来自真实业务的海量脱敏数据,综合运用机器学习领域的各种技术,实现更准确的预估。
- 赛题说明
本届算法大赛的题目来源于一个重要且有趣的问题。人口统计学特征是各类推荐系统的重要输入特征,其中自然也包括了广告平台。大多数验证所采用的方式都是以人口统计学属性作为输入来产生推荐结果,然后离线或者在线地对比用与不用这些输入的情况下的推荐性能。本届大赛的题目尝试从另一个方向来验证这个假设,即以用户在广告系统中的交互行为作为输入来预测用户的人口统计学属性。
代码语言:txt复制 我们认为这一赛题的“逆向思考”本身具有其研究价值和趣味性,此外也有实用价值和挑战性。例如,对于缺乏用户信息的实践者来说,基于其自有系统的数据来推断用户属性,可以帮助其在更广的人群上实现智能定向或者受众保护。与此同时,参赛者需要综合运用机器学习领域的各种技术来实现更准确的预估。(所有数据均为脱敏处理后的数据。)
- 奖项设置
冠军:一支队伍,奖金70,000美元,颁发荣誉证书;
亚军:一支队伍,奖金10,000美元,颁发荣誉证书;
季军:一支队伍,奖金5,000美元,颁发荣誉证书;
排名第四至第十名的7支队伍:每支队伍获得奖金1,000美元,颁发荣誉证书;
排名第十一至第二十的10支队伍:每支队伍获得定制礼品,颁发荣誉证书;
- 大赛流程
本次大赛分为初赛、复赛和答辩三个环节。
代码语言:txt复制 初赛阶段时间为5月7日12:00:00-6月22日11:59:59。每天(中午12点开始的24小时内,如无特殊约定,涉及的时间均为北京时间,二十四小时制)限提交3次结果,系统将实时计算得到此次提交结果的得分,并在个人信息页展示。
代码语言:txt复制 初赛开始后,系统将每天进行一次排名。排名基于每天12:00前各队伍提交的结果,并按照参赛队伍当前赛事阶段的历史最优成绩从高到低依次排序,最后一天除外。排行榜将于每天15:00更新,此排行榜仅供参考,不作为最终排名结果。
代码语言:txt复制 初赛6月22日12:00:00结束,当天15:00根据参赛队伍最后一天的最佳成绩更新排行榜。成绩排名前10%(原则上最多不超过100支队伍,但大赛举办方有权根据报名情况等确定最终数量)的队伍进入复赛。
代码语言:txt复制 复赛阶段为6月23日12:00:00-7月22日11:59:59。在复赛阶段,大赛会提供更多的训练数据。各参赛队伍提交结果的方式和排行榜更新的方式与初赛阶段保持一致。复赛结束时,成绩排名在前的10支队伍(含并列,大赛举办方有权根据复赛情况等确定最终数量)进入最终答辩环节。
本次大赛将对复赛阶段成绩、答辩成绩和代码进行综合评估,作为最终的比赛成绩。
基本解题思路分享
代码语言:txt复制 这里给出一个我的解题思路,从看到题目到发出这篇文章不到10分钟,所以基本思路确实很基础,希望没有带偏各位。
代码语言:txt复制 本届大赛的题目尝试从另一个方向来验证这个假设,即以用户在广告系统中的交互行为作为输入来预测用户的人口统计学属性。很显然是个分类问题,这里就需要去充分挖掘用户的历史行为信息,来判断用户的属性。用行为来匹配属性,或许是多分类问题,进行用户分群。
代码语言:txt复制 常见的统计特征、提取嵌入表示的方法,还要人群聚类的算法都是可以尝试的。如果涉及到时间,即给出用户历史行为日志,就需要按照传统时序统计的方式进行挖掘特征。模型方面,基本的树模型和深度学习模型都是需要我们去尝试的,毕竟竞争激烈。
往届赛题数据整理
2017腾讯广告算法大赛
完整数据集下载链接:https://pan.baidu.com/s/1JnP4Vvr-6HKYlG5bNlfvMQ
提取码:ebd2
2018腾讯广告算法大赛
完整数据集下载链接:https://pan.baidu.com/s/1jSZQJbcx6vDvPNyBKEMa7g
提取码:m8tx
2019腾讯广告算法大赛
完整数据集下载链接:https://pan.baidu.com/s/1yV4l0vTmjfXjbpxxIOlKDg
提取码:iuxp
往届赛题方案整理
2017腾讯广告算法大赛
第一届腾讯社交广告高校算法大赛以“移动App广告转化率预估“为主题,首次开放腾讯在社交和数字广告领域的“实战类”数据,以高度模拟真实业务的赛题方式呈现,并直指数字广告中的核心关键问题:转化预估,面向高校学生征集最智慧的算法解决方案,引领广告生态业界的核心技术方向。
相较于18和19两届比赛,第一届腾讯赛的方案分享少之又少,能够找到的开源代码也不多。经过一番煞费苦心,这里给大家整理了10强选手的答辩ppt,并对其进行方案梳理,供大家学习。
- 一文梳理2017腾讯广告算法大赛决赛方案
https://zhuanlan.zhihu.com/p/95418813
时隔两年,这篇决赛方案梳理悄然登场,主要针对前十名的方案进行学习,17的腾讯赛算法是比较早的ctr比赛,很多方法都值得借鉴,同时也不乏有经典的操作。当时的我还没有开始参加数据竞赛,不过在之后的比赛中,也常分析这场经典赛事。接下来让我们回到两年前,以前来学习优秀方案。
- 第一届腾讯社交广告高校算法大赛_rank14
https://github.com/freelzy/Tencent_Social_Ads
- 第一届腾讯社交广告高校算法大赛_rank20
https://github.com/shenweichen/Tencent_Social_Ads2017_Mobile_App_pCVR
- 第一届腾讯社交广告高校算法大赛_rank23
https://blog.csdn.net/haphapyear/article/details/75057407/
开源代码:https://github.com/BladeCoda/Tencent2017_Final_Coda_Allegro
2018腾讯广告算法大赛
本次算法大赛的题目源于腾讯社交广告业务中的一个真实的广告产品——相似人群拓展(Lookalike)。该产品的目的是基于广告主提供的目标人群,从海量的人群中找出和目标人群相似的其他人群。在实际广告业务应用场景中,Lookalike 能基于广告主已有的消费者,找出和已有消费者相似的潜在消费者,以此有效帮助广告主挖掘新客、拓展业务。目前,腾讯社交广告 Lookalike 相似人群拓展产品以广告主提供的第一方数据及广告投放效果数据(即后文提到的种子包人群)为基础,结合腾讯丰富的数据标签能力,透过深度神经网络挖掘,实现了可在线实时为多个广告主同时拓展具有相似特征的高质潜客的能力。
- 第二届腾讯社交广告算法大赛_rank3
https://github.com/DiligentPanda/Tencent_Ads_Algo_2018
Our model is simply an average of FFM-based Neural Networks with attention. In the final submission, we use 13 such networks. But those networks are only different in their random seeds, which is a bad ensemble actually. So, we guess 5 such networks will give almost the same result. Training on different subsets of the dataset and maybe on different subsets of features should give better results. For details of this model, see_Model_section.
第二届腾讯社交广告算法大赛_rank6_模型篇
https://zhuanlan.zhihu.com/p/38443751
本次比赛中的最优效果的模型为nffm模型,该结构组成主要为:shallow part是LR,deep part是ffm embedding fcs(全连接层)。
- 第二届腾讯社交广告算法大赛_rank6_特征工程篇
https://zhuanlan.zhihu.com/p/38341881
特征主要分为了用户特征和广告特征两个大类,全部特征的都categorical的,即用一个整数表示类别。广告特征比较少,而用户特征的数量则多比较多,包括age,gender等简单的onehot类特征,也包含了interest,topic等不定长的向量特征。
- 第二届腾讯社交广告算法大赛_rank7
https://github.com/guoday/Tencent2018_Lookalike_Rank7th
第二届腾讯社交广告算法大赛_rank9
https://zhuanlan.zhihu.com/p/38499275
开源代码:https://github.com/ouwenjie03/tencent-ad-game
- 第二届腾讯社交广告算法大赛_rank10
https://github.com/keyunluo/Tencent2018_Lookalike_Rank10th
- 第二届腾讯社交广告算法大赛_rank11
https://cloud.tencent.com/developer/article/1505673
开源代码:https://github.com/liupengsay/2018-Tencent-social-advertising-algorithm-contest
2019腾讯广告算法大赛
本次算法大赛的题目是源于腾讯广告业务中一个面向广告主服务的真实业务产品 ——广告曝光预估。广告曝光预估的目的是在广告主创建新广告和修改广告设置时,为广告主提供未来的广告曝光效果参考。通过这个预估参考,广告主能避免盲目的优化尝试,有效缩短广告的优化周期,降低试错成本,使广告效果尽快达到广告主的预期范围。
- 2019腾讯广告算法大赛方案分享(冠军)
https://zhuanlan.zhihu.com/p/73062485
本文将给出冠军完整方案,全文内容架构将依托于答辩PPT,具体细节也会结合代码进行讲解。当然,思路为主,代码为辅,希望这篇分享能够给予你更多的启发。
- 一文梳理2019年腾讯广告算法大赛冠军方案
https://zhuanlan.zhihu.com/p/85520936
本文将从源码着手,深度解读该冠军方案是如何一步步从rough data清洗、特征工程到运用多种模型融合实现最佳效果的。作为一名数据竞赛经验薄浅的算法工程师,期望尽可能的将里面涉及到的知识、技巧、模型、算法作一个细致的总结,所以行文可能比较基础难免冗长。
- 2019腾讯广告算法大赛方案分享_rank5_含完整代码
https://mp.weixin.qq.com/s/j5YICHrkHLDm7OldPFPOjw
获胜者使用高效简洁的代码取得一致好评,在文末,队长林有夕给出了寄语:转换建模视角真的是个很神奇的操作。可以从N个角度去思考。希望有缘的人可以继续发扬光大。能在下一个赛场上,像我一样骄傲的说出,这是一个朋友分享的,并且一起完善。
写在最后
知乎专栏目的传播更多机器学习干货,数据竞赛方法。欢迎投稿!
机器学习理论与数据竞赛实战zhuanlan.zhihu.com
路漫漫其修远兮,吾将上下而求索。