人群LookALike是给定种子人群,然后通过技术手段找到与该种子人群相似的用户群体。人群LookALike在广告投放中使用较多,比如客户提供一个高价值人群,借助广告平台LookALike能力可以找到更多潜在的高价值用户用于广告投放。下面介绍几种常见的LookALike实现方案。
基于用户向量进行相似度计算。使用画像数据、行为数据、消费数据等为每一个用户构建特征向量,构建过程依赖数据编码、数据归一化等手段。假设用户有1000个标签特征,可以构建长度为1000的数组,数组中每一位上的数值代表了对应标签的取值,该数组可以看作该用户的向量。通过计算种子人群中每一个用户与其他非种子人群用户间的向量距离,找出距离每一个用户最近的TOP用户便可构建出目标人群。向量间距离的计算方式包括欧式距离、契比雪夫距离、曼哈顿距离等,可以根据业务特点进行选择。用户的向量也可以通过深度学习中的embedding实现。图5-26展示了基于向量求LookALike人群的主要流程。
基于种子人群特征分布计算相似人群。借助画像数据对种子人群进行特征分析并找出其主要标签特征,比如种子人群标签特征趋向于:性别男、年龄30至40岁、兴趣爱好-军事,那么可以把非种子人群中的所有30-40岁之间爱好军事的男性用户圈选出来作为目标人群。该方式的重点是对种子人群进行画像分析并找出主要特征,此处可以通过与大盘用户(日活或者月活)对比计算TGI找到种子人群主要画像分布特征。基于特征分布计算相似人群的流程如图5-27所示。
基于分类算法计算相似人群。把种子人群当作正样本,其他非种子人群(或者其他人群)当作负样本,通过训练分类模型计算出满足条件的用户并构建目标人群。通过分类算法计算相似人群也是业界常见的人群LookALike实现方案,图5-28展示了其主要实现流程,其中分类模型可以使用传统的机器学习或者深度学习方法。目前也有利用社交网络进行人群LookALike的实践方案,通过好友关系找到种子人群中所有用户的几度好友并构建目标人群。
挖掘人群是指定优化目标,借助算法能力找到满足要求的用户并构建人群。规则人群是通过“条条框框”的筛选条件找出满足要求的用户,而挖掘人群通过算法更好地拟合用户特点,以业务的优化目标为导向更精确地找到目标用户。
在游戏业务场景下,为了推广某款射击类游戏,需要找到对该游戏有下载意愿的用户群体,在游戏推广时针对该群体可以增加游戏曝光数量和消息触达量。在某充值送好礼活动中,为了提高活动充值用户数,可以挖掘充值意愿比较强的用户群体并在活动宣传时作为重点宣传对象。针对某大V作者,为了辅助其快速涨粉,需要找到对该用户及其作品感兴趣的潜在用户。以上示例都有具体的挖掘人群的优化目标:游戏下载量、充值金额、关注用户数,算法工程师根据该目标选择合适的模型进行人群挖掘。
人群挖掘的思路是先找到训练样本(种子人群),然后通过LookALike的思路扩展种子人群。该方式与人群LookALike不同的是,人群挖掘的结果中可以包含种子人群中的用户数据。以上述充值送好礼活动为例,为了挖掘出充值意愿比较强烈的用户群,第一步需要找到种子人群,可以把最近有过充值行为的用户和最近在应用中有过消费行为的用户作为种子人群;第二步是基于种子人群进行扩量,其实现思路与LookALike人群相似,可以通过用户间向量距离、提取种子人群关键特征、通过分类算法等方式计算出目标人群。
本文节选自《用户画像:平台构建与业务实践》,转载请注明出处。