▐ 导读
拍卖机制设计一直是计算广告领域的核心问题,在本文中我们将机器学习和机制设计方法深度融合,提出一种基于深度神经网络建模的电商广告拍卖机制,并在满足 Value 最大化广告主激励兼容的机制解空间内实现多利益方目标的端到端优化。目前,该方法已应用于阿里妈妈展示广告场景,基于该工作撰写的论文已被国际会议 KDD 2021 接收。本文将对深度学习机制设计方法展开介绍,希望可以对从事相关工作的同学带来启发或帮助。
▐ 1 摘要
在电商广告系统中,综合考虑多利益方(用户、广告主、平台)的目标十分关键。传统的拍卖机制(例如 GSP/VCG)由于分配规则确定且专注于优化单一目标(例如收入/社会福利),在优化多利益方指标时可能是次优解。一种可能的研究方向是使用基于数据驱动的机器学习方法,它能从真实数据中直接学习拍卖机制,并有能力使机制朝着给定的业务目标灵活调控。然而,拍卖机制的执行过程中涉及一些不可导的操作(如排序等),这些操作可能和基于梯度回传的大多数深度学习方法难以兼容,制约了机制模型的学习能力。阿里妈妈展示广告机制策略算法团队提出一种基于深度学习的拍卖机制设计方法 —— Deep Neural Auction (DNA),并将其应用在工业界电商广告场景中。DNA 使用深度神经网络从原始拍卖数据中提取特征信息,并将机制分配过程编码到模型内部,利用一种可微分算子对该分配过程中的排序操作进行松弛,在分配结果和反馈信号间建立可微分梯度计算关系以支持端到端训练。此外,DNA 将机制博弈均衡属性(广告主激励兼容)显式融入模型设计中。该机制已被部署在阿里妈妈展示广告系统中,在大规模离线数据集实验以及在线 A/B实验中,DNA 机制对比传统拍卖机制在优化多利益方指标上都展现出了更好的效果。
图: 深度学习机制设计
▐ 2 问题建模
2.1 多利益方博弈视角下的多目标电商广告机制设计
定义在电商广告场景中多利益方(广告主、用户、广告平台)博弈下的多目标优化问题:
其中 表示要优化的机制(即分配和扣费规则), 表示广告主的出价, 代表多利益方诉求指标的线性加权和(weight-sum):,例如(平台收入、点击率、转化率、收藏加购率、成交量等等),所有指标通过预先给定的重要性权重求得聚合目标函数。在优化过程中需要满足机制的激励兼容约束(Incentive compatibility,IC)和个体理性约束(Individual Rationality,IR),即在当前机制下所有广告主的最优策略为诚实报价,以及广告主的净效用不能为负(不超过最大意愿出价)。
对于该问题,工业界普遍使用 uGSP 机制[6]来优化多目标。尽管 uGSP 具有较好的可解释性,但机制解空间存在效果天花板:1. 排序策略被限制在 ecpm 和其他指标的线性组合中;2. 作为一种“静态”机制,uGSP 严重依赖预估模型的准确性,很难根据流量波动和预估不精准做动态调整,缺乏直接对标终局效果的自适应调控能力。
2.2 基于Value Maximizer的电商广告主建模
在传统的拍卖机制理论中,经典的激励兼容机制(如 Myerson/VCG 拍卖)均假设广告主模型为效用最大化模型(utility-maximizer),即广告主的目标为最大化其拟线性效用(quasi-linear utility):。然而我们观察到近些年工业界的电商广告系统中,效用最大化广告主模型已不能完整描述广告主的核心诉求了。例如在淘宝展示广告系统中(Google Ads 中也有相似的产品模式 [11]),存在给定单次出价上限的 OCPC 类型广告主、以及 预算/PPC/PPA 约束下的 MCB 类型广告主,而这些广告主常常不再关心 utility 绝对值的大小,只是将扣费作为一项约束,尽可能地追求其营销目标的最大化(即value,如点击量、成交量等等)。Yahoo!在2017年提出的“Value Maximizer”概念[1]可以描述这一广告主类型的行为模式:
Definition (Value Maximizer). A value maximizer optimizes value while keeping payment below her maximum willing-to-pay ; when value is equal, a lower is preferred.
进一步地,文献[1]证明了对于“Value Maximizer”广告主,机制的 IC 和 IR 需要满足以下两个条件:
- Monotonicity(单调分配):广告主上报了更高的报价不能拿到更差的分配结果;
- Critical Price(最小扣费):胜出广告的计费应为其拿到相同坑位的最低报价。
在后面机制模型的设计过程中时也会显式融入这两个条件,来保障广告主的激励兼容和个体理性这两项经济学性质。
▐ 3 模型设计
由于可解释性较好且易于部署,我们仍然沿用“基于 rankscore 排序”的机制分配框架,并使用深度神经网络计算每条广告的 rankscore。如图所示,Neural Auction 主要由三部分模块构成 :
- 集合编码器(Set Encoder),学习整个竞价队列的上下文信息,输出一个定义在竞价队列上的特征。
- 上下文评分函数(Context-Aware Rank Score Function),以单个广告的特征和竞价队列特征作为输入,学习每个广告的排序分数,并保障广告主的 IC/IR 性质。
- 可微排序引擎(Differentiable Sorting Engine),以竞价队列所有广告的排序分数为输入,以可微的形式进行排序操作,并进一步计算在当前排序分状态下的其他估计指标。
接下来将详细介绍这三部分模型设计和整体的训练方法。
3.1 集合编码器(Set Encoder)
建模候选队列参竞广告的上下文信息对提升平台侧的分配能力十分重要,比如重排技术 [9,10]也运用了很多类似的信息。但不同于序列建模,机制模块的参竞候选集是无序的,因此上下文信息提取结构必须要保持集合的排列不变性(permutation invariance)。为了解决这个问题,我们采用 DeepSet [2]网络结构来建模这一映射关系,其具体计算过程如下:
核心思路是先使用一个共享的编码器 将每一个广告特征映射到高维空间,再通过聚合操作符(这里我们选用平均池化)生成一个固定大小的聚合特征,最后再通过一个编码器 输出这个候选集合的特征表示。这一信息表示将输出到下游的广告评分函数中,辅助推断每个广告在当前候选集上的竞争力。
3.2 上下文评分函数(Context-Aware Rank Score Function)
评分函数的输入为每个广告的特征与上游集合编码器输出的集合表示,输出为每个广告的排序分,所有广告共享这一评分函数,并使用深度神经网络来建模这一映射过程。但2.2中我们介绍过,机制的经济学性质(IC/IR)对评分函数提出了更多的要求——“单调分配”和“最小计费”,而这两点转化为数学语言即:排序分函数需要同时具有“单调性”和“可求逆”的特性。Neural Auction 模型直接通过结构性保障来约束机制的 IC/IR 参数化空间,通过设计一种 Partially Monotone Min-Max Network [3]的网络结构来实现每个广告的排序分函数。这种网络结构的特性是:求逆过程可以通过对网络参数进行简单变换来得到,并且可以约束其中部分网络参数来实现在 bid 上的部分单调。其具体的前向计算和求逆过程如下:
这一网络结构已有文献[3]证明具备通用的非线性function approximator能力,我们通过优化该网络结构的参数来实现IC/IR约束下的平台机制多目标优化。
3.3 可微分排序算子(Differentiable Sorting Engine)
排序分函数模块在计算完所有广告的分数之后会统一输出到可微分排序引擎中,这一模块的作用是以一种可微的计算形式来表达“排序”这一算子,从而能够与梯度下降训练方法结合,实现自动化的端到端训练。为了解决“排序不可微”问题,我们使用一种 NeuralSort 技术[4]来实现这一计算过程,其核心思路是使用 softmax 将离散的排序过程连续化。首先将排序过程具体形式化为 topk 坑位的展现:即 argsort 的过程(我们假定 argsort 为按 rankscore 由高到底排序),则其对应的 permutation matrix 可以表示为:
矩阵中的每个元素 表示第 个广告的 rankscore 是否为整个队列中 大的元素。则进一步可以证明当定义 时,上述 permutation matrix 可以等价为:
其中 表示候选集中任意两个广告 rankscore 之间的绝对距离矩阵,即:; 表示所有广告个数。则对 做 松弛可以得到 permutation matrix 的连续可微形式:
其中 为温度超参,用于控制连续松弛的程度。其物理含义可以理解为:矩阵的第 行代表每个广告排在第位的概率。则这一可微分排序矩阵可以视作一个基础算子,作为连接“DNN-based rankscore”与“rankscore-based 排序”,及进一步“基于排序得到的真实反馈效果”之间的可微计算桥梁。例如:对于 topk 展现广告的收入,可以用该松弛矩阵简单地表示为:
由于整个计算路径不涉及离散操作,可以依据下游自定义的 loss metric 实现完整的端到端优化。
3.4 训练流程
3.4.1 样本构造:
DNA 机制模型使用的广告特征为:出价 bid、预估打分(pCTR,pCVR等)、广告相关信息(如商品类型、笔单价等)、用户相关信息(如性别、年龄段等)、上下文信息(如投放场景、广告产品类型等)、及其他统计特征,使用历史日志中用户的真实反馈行为(如点击、加购、成交等)构造训练信号。
3.4.2 训练 Loss
训练 loss 由两部分信号构成:
(1):直接面向后验真实反馈指标的最大化:
表示 topK 广告的多目标收益(注意这里使用了松弛排序矩阵 构造出了近似期望收益)。其中,表示所有候选广告的多目标效果。
(2):根据日志中的用户行为数据可以计算出一个最优排序,则可以构造一个分类预测的损失函数,来纠正经过 neuralsort 得到的松弛排序矩阵:
仔细观察这两个 loss 的形式不难发现, 的优化其实就是使网络产生的 rankscore 与在用户真实行为上计算出的多目标最优排序一致,但由于 revenue 的计算还是依赖于网络 rankscore 的求逆,导致 rankscore 之间的 distance 又会被显式优化,这给模型训练带来了一些不稳定的因素(离线实验中我们也确实观察到了);而 由于只纠正序的准确性,不涉及广告 rankscore 之间 distance 的学习,它的训练过程较为稳定。我们的经验是:如果优化目标仅有 revenue,那么 任务可以独立训练,最终会收敛(尽管其 learning curve 存在一些毛刺);如果优化多个目标之间权衡,那么 的权重要和 在同一水平,或者先全局优化 学好 allocation,再引入 精细化优化 revenue。
值得注意的是,工业界广告系统的真实反馈通常是稀疏的,算法日志中有用户行为的数据占比可能较低。为了使训练信号更加稠密、提高模型学习的效率,我们将用户反馈与预估值进行了融合,在有用户行为的数据上使用后验校准技术来纠正预估值,再进一步构造两个 loss,提高了训练的稳定性。
▐ 4. 实验效果
4.1 离线实验
在离线数据集上,我们主要对比了GSP[5]、UGSP[6]和DeepGSP[7]机制。为了更清晰的比较多目标优化效果,我们每次只选取两个目标进行优化(即RPM X模式,)。从图中可以看出DNA机制的帕累托前端更优,目标之间的置换比较高。
为了验证机制模型的 IC 性质,受文献[8]中基于bid扰动设计 data-driven IC metric 的启发,我们定义了 value maximizer 广告主的后悔值(Regret),和:
分别表示如果对 bid 进行扰动,广告主 value 获得提升的最大占比及 payment 降低的最大占比。我们在真实广告日志上模拟了 bid 的扰动,并计算了两项 Regret 指标,结果如下表所示。可以看出 Neural Auction 机制的 regret 只有在 上不为0,但其占比较低,且对比非IC机制uGFP(一价拍卖)优势明显。
4.2 在线实验
Table2 对比了 DeepGSP 和 DNA 机制,在损失相同 RPM 水平下获得其他指标的提升,可以看出DNA获得了更优的置换比。Table3 展示了在线上对比 GSP 在所有指标上的优化效果,可以看出融合了多目标的 DNA 机制在所有指标上都优于 GSP,展现出 DNA 机制对于实现广告主、平台和用户体验多方共赢的调控能力。其他实验分析可参考论文:https://arxiv.org/abs/2106.03593。
▐ 5 总结与展望
传统的拍卖机制(例如GSP/VCG)由于分配规则确定且专注于优化单一目标(例如收入/社会福利),在优化多利益方指标时可能是次优解;而经典的uGSP则严重依赖预估模型的准确性,缺乏直接对标终局效果的自适应调控能力。为了解决该问题,阿里妈妈展示广告机制策略算法团队提出一种基于深度学习的拍卖机制设计方法 —— Deep Neural Auction (DNA)。在大规模离线数据集实验以及在线A/B实验中,DNA 机制对比传统拍卖机制在优化多利益方指标上都展现出了更好的效果。
AI is increasingly making decisions, not only for us, but also about us. 最近几年利用深度学习建模博弈关系的研究工作越来越多,基于深度学习的拍卖机制设计在工业界仍具有非常强的落地价值和研究前景,仍然有很多新的方向可以继续探索。比如:如何抽象出更好的优化目标来描述机制的长期效果,并融入机制模型的优化。另外,广告机制策略的另一大组成部分——出价(bidding),近几年也逐渐切换到了基于数据驱动的智能出价技术,那么拍卖智能体(Auction Agent)与出价智能体(Auto-bidding Agent)之间该如何协同,两个可学习agent之间的动态博弈关系是怎样的,异步学习会不会造成效果震荡,这些问题同样值得深入研究。