数据分享|SQL Server、Visual Studio、tableau对信贷风险数据ETL分析、数据立方体构建可视化

追求信贷规模的扩张，往往会导致贷款逾期率的不断增加，如何在当今社会运用数据识别用户特征进行风险管控成为了银行放贷的重点依据（点击文末“阅读原文”获取完整数据）。

解决方案

任务/目标

研究公司个人贷款的数据集（查看文末了解数据免费获取方式），分析客户特征、贷款的风险特征，并对L公司如何将贷款违约率控制在较小范围内提出想法。

数据源准备

全球资本市场是一个巨大的资本池，其中最常见的便是个人消费贷款和中小企业贷款。L公司一度处于全球贷款行业老大的地位。L公司很好地将用户的贷款违约率维持在较小的范围内。

数据浏览：

数据清洗

a) 缺失值的删除

由于数据量巨大，且数据中部分行的数据值不全，故对数据不全的数据进行删除。

b) 格式的转换。

i. 日期转换：通过 SQL 语言进行文本格式的转换

ii. 统一同一职业、所处地域等的表述方式。

数据中，统一来自于不同公司、同一职业的人的不同表述方式（例如 KPMG accountant 与 E&Y accountant 统一为 accountant ）；

相同地域（州）也存在着一部分用全称、一部分用缩写的情况，此种情况统一为州全称。

（以上过程亦可通过python实现）

概念模型的构建

通过SQL Server、Visual Studio的Integration Services进行ETL实现

i. 导入原始数据，并设计好纬度表和事实表（列名、主键、外键、约束）

ii. 设计空表

iii. 依次进行贷款表、借贷者表、位置表、时间表的ETL

通过 multidimensional 和 analysis service 进行数据立方体的构建

i. 数据立方体设有贷款维度、借贷者维度、位置维度、时间维度

ii. 不同纬度下设不同的层次结构

在Visual Studio里计算时间智能、KPI，最后用tableau进行数据可视化，并解决管理问题

项目结果

贷款额随时间的变化、同比、环比

现象：

1.贷款额度基本维持在900万美元到1050万美元区间内，随时间呈周期性变化，周期为1季度。对于第一季度而言，一般最后一个月贷款额度较高，对于第二季度，5月份的贷款额度较高，对于第三季度而言，7，8月份的贷款额度较高，对于第四季度，12月份的贷款额度较高。

2.总体来看五年内，贷款额度的最低点都集中在第一季度

3.贷款的同比、环比变化幅度均较小，上下浮动不超过4%，环比的最高值出现在2015第二季度，同比最高值出现在2015第三季度

点击标题查阅往期内容

Python信贷风控模型：Adaboost,XGBoost,SGD, SVC,随机森林, KNN预测信贷违约支付

左右滑动查看更多

分析：

1.因各年、月贷款额度上下浮动总体不大，可以认为现有借款、贷款资质审查门槛合理，基本满足贷款供需平衡。

2.贷款额在第一季度较少的原因可能是由于年初人们没有较大的贷款需求，整体处于规划状态，而美国人在年终和第四季度(尤其是圣诞节期间)开销比较大，因此贷款需求较高，应该在那个时间段扩大营销。

收入、职业、自有房对贷款的影响

现象：可以看出贷款额度较高的人群特点是

1. 对于低收入人群：按揭房的工业工程师，无房的软件工程师、自有房的注册护士、租房的卡车司机

2. 对于中等收入人群：按揭房的客服、没有房的卡车司机、自有房的工业工程师、租房的销售经理

3. 对于中高等收入人群：按揭房的卡车司机、无房的社会工作者、自有房的内科医生、租房的保险销售人员

4. 对于高等收入人群：按揭房的客户服务人员、无房的工业工程师、自有房的注册护士、租房的客户服务人员

分析：根据以上特征企业可以制订个性化的营销和产品方案，例如对于自有房的客户可能经济压力来源于高额的房地产税，因此在进行产品设计时可以强调贷款周期长、利率小的特点，再比如对于无房的社会服务者，因为其工作的特殊性工资不需要纳税且无房也没有房地产税的负担，其主要的经济压力可能来源于生活普通开销，因此产品设计可以考虑短期、流动性强的贷款

还款 KPI

KPI划分依据：

l 还款额度为100%为状态一：达标

l 还款额度为95-100%的为状态二：基本达标

l 还款额为90-95%的为状态三：不达标

l 90%以下的为状态四：严重不达标

现象：

总体来看：

1. 各职业、各收入人群的还款KPI基本达标。其中只有年收入低于二十万美元的软件工程师、年收入二十万到四十万的社会工作者出现了还款KPI不达标的情况。

2. 贷款买房的贷款人还款KPI最佳。无房、拥有房产的贷款人的还款KPI优秀率最低。

3. 软件工程师还款KPI为优秀的比例最大，但同时也出现收入较低时KPI不达标的风险情况。

分时间段来看：

1. 2014年有6种特征人群严重不达标且集中在中低收入人群，销售经理除外

2. 2015年同样有6种特征人群严重不达标且集中在中高收入人群

3. 2016年软件工程师的达标情况出现两极分化，部分人群达标，部分人群严重不达标

4. 2017年中高等收入的注册护士达标情况比较差

5. 2018年工业工程师和会计的达标情况比较差

分析：

年收入二十万到四十万的社会工作者贷款条件应该更为严格。
收入高于二十万的软件工程师贷款条件可以适度放松；收入在二十万以下的软件工程师贷款条件应更加严格。
每一年职业对KPI的影响不同，企业应该具体分析每一年中的行业走势，识别出经济波动中的行业衰退

地域分布对贷款的影响

现象：

1.乔治亚州、肯塔基州为贷款额度最低的两个州。

2.怀俄明州、密歇根州为贷款额度最高的两个州。

3.GDP最高的加利福利亚州贷款额度处于低水平。GDP倒数第一、二的佛蒙特州、怀俄明州贷款额度处于高水平。

4.贷款总额最高的地区是东南和中西部地区，最少的是东北和西南地区。

分析：

1.贷款额度与GDP呈负相关关系，越富裕的地区贷款额度越低，而贫穷的州仍然处于需要贷款解决问题的生活水平。

2.公司应当关注佛蒙特州、怀俄明州此类GDP倒数、贷款额度最高的州的还款KPI情况，若KPI不达标，则加强对此类大州的贷款资质审查力度。同理，可以适度放松对GDP发达、借款额度低的大州的贷款资质审查力度。

3.公司应该根据各个地区的贷款额状况设置代理点，在贷款额高的地区设置更多的代理点而在贷款额低的地区设置较少的代理点，同时可以在贷款额少的地区加大营销力度。

点击标题查阅往期内容

Python进行多输出（多因变量）回归：集成学习梯度提升决策树GRADIENT BOOSTING,GBR回归训练和预测可视化

Python对商店数据进行lstm和xgboost销售量时间序列建模预测分析

PYTHON集成机器学习：用ADABOOST、决策树、逻辑回归集成模型分类和回归和网格搜索超参数优化

R语言集成模型：提升树boosting、随机森林、约束最小二乘法加权平均模型融合分析时间序列数据

Python对商店数据进行lstm和xgboost销售量时间序列建模预测分析

R语言用主成分PCA、逻辑回归、决策树、随机森林分析心脏病数据并高维可视化

R语言基于树的方法：决策树，随机森林，Bagging，增强树

R语言用逻辑回归、决策树和随机森林对信贷数据集进行分类预测

spss modeler用决策树神经网络预测ST的股票

R语言中使用线性模型、回归决策树自动组合特征因子水平

R语言中自编基尼系数的CART回归决策树的实现

R语言用rle，svm和rpart决策树进行时间序列预测

python在Scikit-learn中用决策树和随机森林预测NBA获胜者

python中使用scikit-learn和pandas决策树进行iris鸢尾花数据分类建模和交叉验证

R语言里的非线性模型：多项式回归、局部样条、平滑样条、广义相加模型GAM分析

R语言用标准最小二乘OLS，广义相加模型GAM ，样条函数进行逻辑回归LOGISTIC分类

R语言ISLR工资数据进行多项式回归和样条回归分析

R语言中的多项式回归、局部回归、核平滑和平滑样条回归模型

R语言用泊松Poisson回归、GAM样条曲线模型预测骑自行车者的数量

R语言分位数回归、GAM样条曲线、指数平滑和SARIMA对电力负荷时间序列预测

R语言样条曲线、决策树、Adaboost、梯度提升(GBM)算法进行回归、分类和动态可视化

如何用R语言在机器学习中建立集成模型？

R语言ARMA-EGARCH模型、集成预测算法对SPX实际波动率进行预测

在python 深度学习Keras中计算神经网络集成模型

R语言ARIMA集成模型预测时间序列分析

R语言基于Bagging分类的逻辑回归(Logistic Regression)、决策树、森林分析心脏病患者

R语言基于树的方法：决策树，随机森林，Bagging，增强树

R语言基于Bootstrap的线性回归预测置信区间估计方法

R语言使用bootstrap和增量法计算广义线性模型（GLM）预测置信区间

R语言样条曲线、决策树、Adaboost、梯度提升(GBM)算法进行回归、分类和动态可视化

Python对商店数据进行lstm和xgboost销售量时间序列建模预测分析

R语言随机森林RandomForest、逻辑回归Logisitc预测心脏病数据和可视化分析

R语言用主成分PCA、逻辑回归、决策树、随机森林分析心脏病数据并高维可视化

Matlab建立SVM，KNN和朴素贝叶斯模型分类绘制ROC曲线

matlab使用分位数随机森林（QRF）回归树检测异常值

sql etl server 可视化数据

1 人点赞