在电商大促时,为了能够合理地制定KPI、高效地商品备货和营销资源的安排,都通常都需要对这次大促的GMV和订单规模做预测,避免出现诸如产品断货或者过剩、人员效率不高等问题,导致客户流失未能成交。
本篇文章,就简单地说一说在做大促预测时候常用的一般方法和逻辑。这里需要说明的时候,预测是允许存在一定误差的,我们无法要求实现百分百的准确,但是至少,需要做到和最终结果在数量级上是一致的。
这里很明确的,我们就是要预测某个大促时间段的GMV,做本次预测的核心目标是,让业务方做好对促销资源投入的评估,最终实现投入资源的合理分配。
在传统的预测中,通常是基于历史GMV趋势做预测的,衡量的是历史大促期相对平销期流失爆发度,计算公式是本次大促GMV=大促前平销期GMV*大促爆发系数,其中,大促前平销期GMV可以通过时间序列模拟获得,而大促期间的爆发系数通常是基于业务经验做推断获得的。
但是通过这种方法发现,最终结果的不可控因素非常多,比如业务经验是否足够,时间序列周期的选择和模型的选择,最重要的是,这种预测放大是无法识别出不同用户的购买意向,也就做到之前的核心目标,不便于优化投入的资源分配和细化策略。
这里选择的是按照用户拆分,来预测用户支付概率和金额,具体如下图所示:
通过上面的拆解,就把预测趋势的问题转换为分类问题,探索的是客户是否购买,以及购买的金额的问题,这样在基于电商丰富的数据,是能够将预测结果控制在合理的范围内。
这样,预测的输出结果就明确了,首先是用户id,用于用户的分类,例如基于此,可以将用户分为A组、B组等;其次是不同分类用户的购买概率,例如A类、B类客户购买概率分布是多少;最后是大促的购买金额。
接下来,为了得到最终的结果,需要确定模型和对应的特征工程。这里,特征工程的选择必须尽量丰富,例如可以包括年龄、性别、优惠敏感度、近14天访问次数、近14天加购次数、近30天是否支付以及会员等级等。针对模型选择方面,这里可以使用的模型还是很多,需要尽可能的实验尝试,比较经常用到的是GDBT模型和LR模型,但是需要明确不同的适用场景。
确定了目标、特征和模型后,接下来就需要收集用到的数据,比如日志、数据库等;同事需要对收集到的数据做好清洗,例如异常值、缺失值处理,数值类型转化、不同量纲数据的标准化等。
接下来还需要针对模型预测的结构做分析和检验,主要用到的是离线测试数据集检验和线上数据实测对比,需要综合评估准确率和召回率两个指标。
经过了以上几个步骤,基本上就可以得到想要的结果了:用户分类,不同分类用户的购买概率和购买金额。