感谢郝强博士分享的《车源及客户智能算法介绍》(以下简称《算法介绍》)。《算法介绍》中,郝博士介绍了4个方面内容,1、成交预测;2、列表曝光排序;3、车辆推荐;4、图片优化,主要目标是用算法优化车源转化效率提升客户体验。由于信息量太大,这篇主要整理了成交预测。成交预测通俗一点说就是判断车是否好卖。
瓜子二手车的业务流程很长,如果我们能够提前知道车是否好卖,就可以在以下环节进行提前处置,提升整体转化效率,锁定优质车源。
• 评估前:是否优先预约和评估?
• 评估时:是否签约为独家车源?
• 分车时:销售分到的车源是否均衡?
• 售车时:是否优先曝光?
• 滞销时:是否优先维护降价?
一、模型方案
1、预测目标(车源在上架7天内的成交概率)
怎么判断一个车是否好卖,以往只能靠评估师和销售人员的经验,现在瓜子采用机器学习的方式来解决这个问题。
2、样本分类
把车分成两类,好卖和不好卖。好卖的叫正样本,不好卖的叫负样本,正负样本具体内容如下:
• 正样本:上架7天内成交的车源
• 负样本:上架14天后仍在售的车源
从历史成交或没成交的数据中找出这些数据(根据成交时间标注样本数据) ,让机器学习这些规律(训练),用学到的规律去预测新的车是否好卖(标准的机器学习过程)。
3、特征
建模过程中需要很多属性作为特征(如果不了解特征可以看一看模式识别),有了特征之后,需要一个分类模型来学习特征规律。
车的特征包括但不限于以下内容
价格:标价、底价、评估价、新车参考价
车源:车龄、里程、过户、车况、城市、线索来源
车型:类型、国别、品牌、车系、变速箱、排量……
4、分类模型
线性模型。不适合汽车这种复杂特征的场景。
非线性模型。瓜子采用多个决策树某种方式的组合来做模型,把融合后的结果用于预测车辆成交可能性(小白,不懂为什么选决策树,求指点)
• 随机森林(并联多棵决策树)
• GBDT(串联多棵决策树)
5、特征工程
为了提升机器学习效果,需要对特征做一系列工作,叫做特征工程。特征工程主要包括3点内容
(1)特征组合,把某些原始数据组合起来让它更有意义
• 数值变量:比值(例:价格比,年均里程)
• 类别变量:笛卡尔积(例:城市x 品牌)
(2)特征编码,将非数值型数据编码为模型可以识别处理的数值。比如品牌、车系
• One-Hot 编码
• Weight-of-Evidence 编码
(3)特征选择,兼顾模型效果和稳定性
• 尽量降低特征维度
• 舍弃效果增益小的特征
• 舍弃依赖外部的特征(例:估价商A估价,不能因为估价商A 估价高影响到瓜子对车的评价,后边有数据对比,隐去具体厂商,用估价商A替代)
二、车源效果
效果对比,7天转化率
瓜子模型 vs. 估价商A性价比(=估价商A估价/售价)
top%(模型认为最好卖的车) | 估价商A | 瓜子模型 | 增长率 |
---|---|---|---|
5% | 36.1% | 46.8% | 30% |
10% | 33.8% | 42.8% | 27% |
20% | 30.5% | 36.3% | 19% |
30% | 27.4% | 31.9% | 16% |
60%(A级) | 20.3% | 22.8% | 12% |
估价商A认为性价比最高的5%的车,7天转化率为36.1%;瓜子模型认为最好卖的5%的车,7天转化率为46.8%。瓜子模型要高出估价商A性价比模型30%。 这一点很好理解,性价比高的车不一定好卖!
随着头部车辆比例越来越大,瓜子模型的优势逐渐减弱。但是即使取到60%时(大致等于瓜子定义的A级车),瓜子模型仍然有12%的优势。
隐去其他一些敏感数据,总体上讲,这个模型具备优势。
三、具体应用
有了这个预测模型,在不同业务环节做如下具体应用(以评估工单分级和优先卖为例)
• 评估前:是否优先预约和评估?--》评估工单分级
• 评估时:是否签约为独家车源?--》优先卖
• 分车时:销售分到的车源是否均衡?--》热销分级
• 售车时:是否优先曝光?--》热销分级
• 滞销时:是否优先维护降价?--》降价后热销分级
1、评估工单分级
(1)目标:按成交概率将工单分级-->尽快评估好车。(拿到线索后,评估车上架后成交可能性,容易成交的车优先评估)
(2)特征
• 品牌、车系、车龄、里程、过户次数、城市、线索来源
• 无价格、无车型
在评估阶段工单阶段,车的很多属性不知道,特别车价、和车型,采用弱化版模型,用到很有限的属性。
(3)模型可有效判断车源是否好卖
• 7天转化率比A级车源高25%
• 车源数量相等时,7天/14天转化率与A级车源持平
* A级车源的判定需要价格和车型。(瓜子模型在评估之前,没有这两个属性的情况下,达到了估价商A性价比类似的效果)。
2、优先卖
• 目标:用订金锁定好车源,降低停售,提升转化
如何选择好车源
• 人工:评估师凭借经验判断 (没有模型之前)
• 模型:从历史数据中自动学习规律
独立测试结果显示(人工筛选与模型筛选互不影响)
(1)模型选出了更多更好卖的车(见下图)
(2)选车不一致时,模型显著优于人工(见下图)
从左往右第一根柱子是人工和模型都觉得不好卖的车,7天转化率 停售率很低,车确实不好卖
第四根柱子是人工和模型都觉得好卖的车,7天转化率 停售率很高,车很好卖
中间两个柱子是人工和模型不一致的情况,可以看到模型认为好卖的车(第三根柱子)比人工认为好卖的车(第二根柱子)7天转化率 停售率要高得多。说明模型在判断车是否好卖的问题上明显优于人工!