近两年P2P网贷行业风云变幻,雷声不断,不巧前几日我也中招,之前给亲戚介绍的P2P网贷平台出现到期未还款的现象,吃惊之余赶忙给平台客服打电话,被告知借款人逾期,目前正加紧催收。在当前经济下行压力增大的环境下,P2P网贷行业风险日益暴露,加之网贷备案一拖再拖,P2P网贷平台举步维艰。
本期“品玩SAS”我们就深入研究下P2P网贷平台的用户情况,以期对P2P网贷的参与者有一个清晰的认识。
目录
1 背景和目的
2 数据介绍
3 数据清洗
4 数据分析
4.1 贷款客户画像
4.2 各变量与历史逾期的相关性
5 建议
1 背景和目的
拍拍贷(NYSE:PPDF)成立于2007年6月,总部位于上海,是国内首家P2P网贷平台,2017年11月10日,拍拍贷在美国纽约证券交易所上市。截止到2018年12月31日,拍拍贷累计注册用户8893万人;累计借款用户数为1444万人;累计投资用户数超过66.7万人。
本文的目的主要包括以下两个方面:
(1)了解贷款客户的画像,例如性别、年龄、借款金额、初始评级、认证状态的分布情况。
(2)各变量与历史逾期的相关性,包括历史逾期和性别、年龄、初始评级、认证状态的相关性。
2 数据介绍
本文以拍拍贷2015年1月1日至2017年1月30日的328553条贷款数据(该时间段10%的真实数据)为研究对象。
LC (Loan Characteristics) 表为标的特征表,每支标一条记录。共有21个字段,包括一个主键(listingid)、7个标的特征和13个成交当时的借款人信息,全部为成交当时可以获得的信息。该数据表一共是328553行,21列。
字段描述:
21个字段大致可以分为基本信息、信用信息、认证信息、借款信息4个维度。
3 数据处理
将数据集lc导入Navicat客户端,导入过程中字段类型全部默认为varchar(255),这里将借款金额,借款期限,历史成功借款次数,历史成功借款金额,历史正常还款期数,历史逾期还款期数设置为int类型,部分数据如下。
查询数据中是否存在重复值或缺失值。
--查询重复值、缺失值
SELECT COUNT(DISTINCT ListingId),COUNT(`借款金额`),COUNT(`借款期限`),
COUNT(`借款利率`),COUNT(`借款成功日期`),COUNT(`初始评级`),COUNT(`借款类型`),
COUNT(`是否首标`),COUNT(`年龄`),COUNT(`性别`),COUNT(`手机认证`),
COUNT(`户口认证`),COUNT(`视频认证`),COUNT(`学历认证`),COUNT(`征信认证`),
COUNT(`淘宝认证`),COUNT(`历史成功借款次数`),COUNT(`历史成功借款金额`),COUNT(`总待还本金`)
,COUNT(`历史正常还款期数`),COUNT(`历史逾期还款期数`)
FROM LC;
各字段返回的结果均为328553,说明数据集中不存在缺失值。Distinct去重后的ListingId也为328553,说明数据中不存在重复值。该数据集比较规整,数据清洗工作较为简单。
4 数据分析
4.1 贷款客户画像
4.1.1基本信息-性别/年龄
--查询性别分布
select 性别,
count(listingid) as 数量
from lc
group by 性别
-查看不同年龄段用户人数
SELECT CASE WHEN `年龄`>= 17 AND `年龄`<=25 THEN '17-25'
WHEN `年龄`>= 26 AND `年龄`<=35 THEN '26-35'
WHEN `年龄`>= 36 AND `年龄`<=45 THEN '36-45'
WHEN `年龄`>= 46 AND `年龄`<=56 THEN '46-56'
ELSENULL END AS 年龄阶段,COUNT(`年龄`) AS用户人数
FROM LC
GROUP BY CASE WHEN `年龄`>= 17 AND `年龄`<=25 THEN '17-25'
WHEN `年龄`>= 26 AND `年龄`<=35 THEN '26-35'
WHEN `年龄`>= 36 AND `年龄`<=45 THEN '36-45'
WHEN `年龄`>= 46 AND `年龄`<=56 THEN '46-56'
ELSENULL END
ORDER BY 用户人数 DESC
从上图可以看出,性别分布上男性借款用户要明显多余女性借款用户,占全部借款用户的三分之二。年龄分布上,主要的年龄群体是26-35岁之间,其次是17-25岁、36-45岁人群,46岁以上借款用户较少,这基本符合我们上篇文章讲的“学生时期”、“事业发展期”、“财富积累期”的不同人生阶段。总结来讲,借款人主要为较年轻的男性群体。
4.1.2 基本信息-平均借款金额/利率/期限/最大最小值
--查询平均借款金额
select ROUND(sum(借款金额)/count(借款金额),2) as 平均借款金额
from lc
--查询加权平均借款利率、借款期限
select round(sum(借款利率*借款金额)/sum(借款金额),2)as 平均借款利率,
round(sum(借款期限*借款金额)/sum(借款金额),2) as 平均借款期限
from lc
--最大最小值
select min(借款金额),min(借款期限),min(借款利率),max(借款金额),max(借款期限),max(借款利率)
from lc
从查询结果可知,借款人平均借款金额为4423.82元,最小借款金额100元,最大借款金额50万元,属于小额贷款;平均借款利率为19.94%,利率偏高;平均借款期限为10.19个月,最长借款期限24个月,属于短期借贷。
4.1.3 信用信息-初始评级
--初始评级
select 初始评级,count(初始评级) as 人数
from lc
group by 初始评级
order by 初始评级
--初始评级与借款利率关系
SELECT 初始评级,round(sum(借款利率*借款金额)/sum(借款金额),2)as 平均借款利率
FROM LC
GROUP BY 初始评级
ORDER BY 初始评级
一般而言,初始评级代表客户的信用好坏,评级越高客户逾期的可能性越小,初始评级从高到低排序为A-F。从图中来看,拍拍贷初始评级为C、D的借款人最多,两者合计占全部借款人的81%,借款人群信用表现一般。借款利率上,初始评级与借款利率负相关,初始评级越高则借款利率越低。
4.1.4 认证信息-认证情况
认证信息是客户真实性身份的佐证,完善的认证信息有利于平台防范欺诈、控制客户逾期风险。从上表来看,拍拍贷平台借款人的认证信息缺失严重,60.5%的用户一项也没有认证,一项认证的也仅有31.99%,二项认证及以上的合计7.51%,完成全部认证的用户仅有0.02%。
小结:
(1)男性用户为借款人群主力,约为女性用户的两倍,借款人年龄集中在17-35岁之间;
(2)借款人平均借款金额为4423.82元,平均借款利率为19.94%,平均借款期限为10.19个月,呈现小额、短期、高息的借贷特点;
(3)借款人初始评级呈现两头少(A、F),中间多(C、D)的特点,说明借款人信用状况居中,平台信用把关较为严格,但缺乏优质客户;
(4)大部分借款人认证信息缺失,平台在用户认证方面需加大力度。
4.2 各变量与历史逾期的相关性
4.2.1 性别与历史逾期的关系
--性别与历史逾期率
SELECT 性别,sum(`历史逾期还款期数`) as 历史逾期期数,
concat(round(sum(`历史逾期还款期数`)/(sum(`历史逾期还款期数`) sum(`历史正常还款期数`))*100,2),'%') as 历史逾期率
from LC
group by 性别
历史逾期率=历史逾期期数/(历史正常还款期数 历史逾期期数)
从图中可以看出,男性的历史逾期还款期数比女性多,这主要是由于男性借款人数远多于女性,相应的正常还款期数、逾期还款期数均多于女性借款人。而有趣的是,在历史逾期率上,女性的历史逾期率要高于男性。
4.2.2 年龄与历史逾期的关系
--按年龄分组,查看各组历史逾期率
SELECT CASE WHEN `年龄`>= 17 AND `年龄`<=25 THEN '17-25'
WHEN `年龄`>= 26 AND `年龄`<=35 THEN '26-35'
WHEN `年龄`>= 36 AND `年龄`<=45 THEN '36-45'
WHEN `年龄`>= 46 AND `年龄`<=56 THEN '46-56'
ELSE NULL END AS '年龄阶段',
concat(round(sum(`历史逾期还款期数`)/(sum(`历史逾期还款期数`) sum(`历史正常还款期数`))*100,2),'%') as 历史逾期率
FROM LC
GROUP BY 年龄阶段
26-35岁历史逾期率最高,17-25岁、36-45岁年龄段历史逾期率相对比较低,可能的原因是17-25岁的借款金额比较小,还款难度较小,因此不太会逾期,而26-35岁人群正值事业发展期,对资金的需求旺盛,导致负债较重,从而影响其还款表现。
4.2.3 初始评级与历史逾期的关系
--初始评级与历史逾期率
select 初始评级,
concat(round(sum(`历史逾期还款期数`)/(sum(`历史逾期还款期数`) sum(`历史正常还款期数`))*100,2),'%') as 历史逾期率
from lc
group by 初始评级
order by 初始评级
随着评级的下降,历史逾期率逐渐升高。其中从A-D评级的上升趋势较为平缓,到E评级的历史逾期率出现大幅度提高,从5.45%到12.90%,说明E评级人群信用资质下降明显。F评级的历史逾期率也较高,但相比E评级略有下降,可能是由于F评级借款人在全部借款人中占比过少(1%),导致F评级数据存在些许误差。
4.2.4 认证信息与历史逾期的关系
从上图来看,似乎无认证借款人的逾期表现好过有认证的借款人,这里要考虑不同认证数之间借款人数量存在的巨大差异,大多数用户处在无认证与一项认证的情况,取得两个以上认证的用户仅有7.5%,这样的数量差异难以反映出数据的规律。用户认证这一项监督手段还需要继续推进。
小结:
(1)男性借款人远多于女性,但在历史逾期率方面,女性(4.82%)的历史逾期率略高男性(3.75%);
(2)26到35岁间的用户历史逾期还款期数最多,历史逾期率也最高;
(3)初始评级与历史逾期率呈现负相关,随着初始评级的降低,历史逾期率呈上升趋势,历史逾期率区间为1.26%-12.99%。同时E、F评级的历史逾期率远大于之前的四个评级,可以看作客户资质好坏的分水岭;
(4)由于大多数用户未进行认证或只进行了一项认证,导致取得两个及以上认证的用户数据过少,难以反映出历史逾期率与认证数的相关性,有待以后拥有更多有效数据之后再研究。
5 建议
1.女性的历史逾期率比男性高,应在贷款审批时加强对女性借款人的审核力度。
2.26至35岁借款人群历史逾期期数、逾期率最高,需对这部分年龄段客户从严审核来降低逾期率,或者提高贷款利率,用多出的利息收入覆盖客户逾期导致的损失。
3. 初始评级与历史逾期率负相关,初始评级越高,客户越优质,其逾期的可能性越小,可以适当给予高评级客户更大的借款额度或者优惠利率来吸引、留存。
4.一般而言,认证信息具有反应客户真实性、信用情况的作用,然而拍拍贷平台用户的认证信息大面积缺失,有待进一步鼓励用户完善认证,并不断改进认证机制。