DF消费者人群画像—信用智能评分方案分享(top5)

2019-09-12 17:55:38 浏览数 (1)

写在前面

队伍名:小兔子乖乖

完整方案

1.赛题背景和意义

2.数据探索和特征工程

3.研究成果

4.未来展望

1.赛题背景和意义

此次比赛是中国移动福建公司提供2018年某月份的样本数据,包括客户的各类通信支出、欠费情况、出行情况、消费场所、社交、个人兴趣等丰富的多维度数据,参赛者通过分析建模,运用机器学习和深度学习算法,准确评估用户消费信用分值。我们知道通讯运营商作为社会企业中不可缺少的部分,同样需要打造企业信用评分体系,助推整个社会的信用体系升级。可是“传统的信用评分主要以客户消费能力等少数的维度来衡量,难以全面、客观、及时的反映客户的信用。中国移动作为通信运营商拥有海量、广泛、高质量、高时效的数据,如何基于丰富的大数据对客户进行智能评分是中国移动和新大陆科技集团目前攻关的难题。运营商信用智能评分体系的建立不仅能完善社会信用体系,同时也中国移动内部提供了丰富的应用价值,包括全球通客户服务品质的提升、客户欠费额度的信用控制、根据信用等级享受各类业务优惠等。有了赛题的初步了解,我们接着考虑赛题的意义,主要为四个方面,(1)可直面真实场景数据,可以接触到企业内部真实脱敏的数据,让参赛者在真实业务场景上使用数据;(2)可以交流多种想法,可以接触到企业内部真实脱敏的数据,让参赛者在真实业务场景上使用数据;(3)进一步提升信用评估方法技能,通过此次参赛可进一步提升参赛选手的对用户信用评分的技能,可以用在用户画像和黑产识别上;(4)加强机器学习应用技能,通过此次参赛可加强如何将算法知识应用在用户给评分的业务场景中。有了这些基本的了解,接下来将具体展示详细工作。

2.数据探索与特征工程

基本特征:用户ID类特征,主要标签为是否大学生客户,是否黑名单客户,是否4G不健康客户,缴费用户当前是否欠费缴费。用户数值型特征,主要标签为用户网龄(月),用户最近一次缴费距今时长(月),缴费用户最近一次缴费金额(元),用户近6个月平均消费话费(元),用户账单当月总费用(元),用户当月账户余额(元),用户话费敏感度。当月网购类应用使用次数,当月物流快递类应用使用次数,当月金融理财类应用使用总次数,当月视频播放类应用使用次数,当月飞机类应用使用次数,当月火车类应用使用次数,当月旅游资讯类应用使用次数在此处插入段落文本。 大体可以看作布尔型和数值型在此处插入段落文字。

年龄与信用分的相关性图

数据探索:我们对用户缴费金额与信用分,用户年龄与信用分进行了分析。同时对一些值进行替换。

敲黑板:从图中可以看到存在很多的异常值,然而在这到题中,提出异常值得样本成为提分得关键,由于这些异常值是会对整体评估造成影响。包括前排也都会这样做。

代码语言:javascript复制
data.loc[data['用户年龄']==0,'用户年龄'] = None
data.loc[data['用户话费敏感度'] == 0, '用户话费敏感度'] = None
data.loc[data['用户账单当月总费用(元)'] == 0, '用户账单当月总费用(元)'] = None
data.loc[data['用户近6个月平均消费值(元)'] == 0, '用户近6个月平均消费值(元)'] = None

基本特征构造

新的探索

不断改善,才能不断创造可能,从多方面进行探索,最终得到全面提升。这里将分为四个方面,(1)数据多种数据影响,对数据的预处理,不同类别影响因素对用户信用的影响;(2)同样特征工程,特征在某些模型表现优异,而在另一些模型表现不佳;(3)构建新的特征不同模型采用了不同特征;(4)构建新的模型,并尝试更好的运用。

3.研究成果

经过上面一系列的过程,从数据分析到特征工程,然后不断的完善,得到最终的结果,模型方面我们保证差异性,特征方面我们分不同的组别进行训练。最终将多个结果进行融合。

我们知道,整个比赛提高成绩主要三个方面,除了特征工程外,剩下两各分别是模型调参和模型融合。对应模型融合部分在经过satcking,average的尝试后,我们选择了加权融合,由于模型和特征都存在差异性,最总结果提升很多,在B榜也是得到了第五的成绩。

4.未来展望

虽然比赛结束了,但还是期待更多的尝试,这次比赛的数据量并不是很多,考虑增加样本,来提高高质量的训练集容量,增加样本量可以防止过拟合,可以使模型的泛化能力更强;构建多重”UID“关注点不仅仅聚焦在呈现的一个用户的行为,可以聚焦用户群相互之间的特征标签做信用评分;丰富用户标签,用户标签越丰富,获得用户信息并区分用户行为的辨识度也相应的越高;尝试多种模型,不同模型带来的效益不一样,而融合也往往能带来不错的效果;

0 人点赞