在银行担任数据分析师是种什么体验?| CDA持证人专访

2022-11-17 15:18:50 浏览数 (1)


CDA数据分析师 出品

主持人:王海龙 视频制作:焦亚丽

采访嘉宾:CDA持证人 郭畅

编辑:Mika

采访老师:

大家好,今天我们邀请到了郭畅来参加我们CDA持证人专访!郭畅可以和大家打个招呼!

嘉宾:

大家好,我叫郭畅,安徽大学毕业,目前就职于徽商银行总行大数据部,刚工作一年多,主要参与两项跨部门项目建设,项目中主要负责模型开发,数据分析,模型运营优化等工作。

点击下方视频,先睹为快:

http://mpvideo.qpic.cn/0bc3a4aneaaap4aan5tiarrvab6d2idqbuqa.f10002.mp4?dis_k=6cfb3562af0a16bc98b6e8ece496df83&dis_t=1668669475&vid=wxv_2654528846960246787&format_id=10002&support_redirect=0&mmversion=false

问题 1:

我看您已经是CDA二级持证人了,您平时工作或者项目能和考证内容结合起来吗?

//

嘉宾:

是的,可以的。

其实我是在读研期间考的CDA,因为研究方向是机器学习、数据挖掘方面的,那段时间发现CDA二级建模分析师考试内容比较相符,加上有实操考试,就想边学习边考CDA可能更系统一点,也能检测自己学习情况。而后来在找工作的途中也发现这方面知识还是比较热门的,特别是在银行数字化转型的背景下。

现在是刚入职银行一年多,由于所在的岗位比较对口,之前学习的内容还是比较有用的,比如说评分卡模型、逻辑回归、随机森林、GBDT、XGBOOST算法等等在当前的互联网信贷上都常会用到。

而风控也一直是互联网信贷的工作重心,刚刚提到的机器学习算法也都是在做逾期客户以及“坏客户”预测上会使用到的,然而在“算法”、“模型”之前还有最重要的,也是我们在工作中最费时的数据预处理以及特征筛选的部分,工作中遇到的数据存在各种各样的问题,如何处理缺失、异常;如何进行数据清洗、编码?在特征构建以及筛选的过程中如何构建有效特征?如何进行特征筛选?这些在我考证期间都有接触到,并且和实际工作也都有所重合。

然而在工作的这一年中,也是仅仅通过书本无法学习的是在做模型设计、开发中的业务知识,毕竟模型是为业务赋能,会应用到具体的业务场景,所做的模型都需要结合不同的业务场景设计不同的指标,设计的指标也会根据业务场景、应用做筛选,具体问题具体分析。但是业务分析、数据获取、数据预处理、建模、模型评估以及应用等流程重合度还是比较高的。

问题 2:

平时用什么语言写模型呢?可以简单说说您的模型开发工作流程吗?

//

嘉宾:

在数据提取方面用的最多的还是 SQL 语言,因为银行数据大部分都在数据仓库里;建模、模型运营分析方面一般用 Python。

我们进行模型开发时都是根据业务部门需求进行,所以需要先确定业务需求,明确了业务需求后,需要分析数据可用性、提好坏样本、特征构建、建模、评估等等。在实际工作中,我目前遇到的模型分为规则模型、机器学习模型以及两种相结合的模型。

在工作之前我也觉得规则模型比较简单,但是实际工作中就知道,针对特定场景、特定政策要求规则模型必不可少,针对规则模型,业务要求、监管及政策导向极其重要,如何量化指标、如何调优是及其重要的部分;而针对于机器学习模型,特征筛选、模型构建调优中,模型本身、算法却是重点之一。

问题 3:

模型优化是怎么操作的 ,是长期的工作吗或者是一定周期就要优化呢?

//

嘉宾:

模型优化其实应该是贯穿整个模型生命周期必不可少的环节,应该说是一个长期工作,但不能说是一定周期就一定要进行模型优化。

在我当前的工作中,模型优化有两个原因:

1、业务需要;

2、模型需要。

对于前者,是指针对不同的业务场景和产品需要,结合业务或者产品的变动需要进行的模型优化。

对于后者是指在模型运营分析的过程中发现的问题进行优化,举个例子,对于互联网信贷模型,准入端、模型端、授信端都有各自的模型或规则,如果某些规则、特征出现波动,针对波动出现的原因需要进行分析,如果确认是模型对当前的客群出现了偏差,则应该进行不同程度的调整。

所以,模型优化不是单独进行的,需要和业务需要以及日常模型监控相结合。

问题 4:

可以举一个模型优化的实际案例吗?

//

嘉宾:

那我就从我参与的两次模型优化入手简单说一下。

刚才也说到模型优化不是独立出来的过程,也是需要从好坏客户定义、样本提取、查看分布、优化调整、评估优化结果等方面进行的。

在实际的工作中,经常存在模型刚上线一段时间,坏样本不充足的情况,此时做模型优化,需要把精力放在如何获取坏客户上,我们常遇到的解决办法是找类似的场景去扩充坏样本,对于上线时间较长的其他场景的逾期客户在进行迁移率分析、进行客户分布重合度的验证后是否可以进行坏样本扩充。

在好坏样本定义和样本提取之后,需要查看我们样本在当前模型的表现,也就是在样本上通过变量取值回测模型规则、评分以及额度策略等等,针对好坏样本表现分布,结合前期调整要求,比如变量阈值、额度参数等等这种简单层面的,最后将调整后的结果和之前进行对比、评估,在评估阶段主要是从模型优化前后效果比对和风险分析方面,风险方面比如采用紧的变量调整方法,也就是控制坏客户的进入,可能造成的客户申请通过率低贷款放不出去,可能是业务无法接受的,如若采用松的变量调整方法,放进了大量客户而导致坏客户的进入以至于逾期率、不良率上升的风险,在实际的调整过程中需要和业务端共同协调来定,完成所有流程后撰写优化报告以及测试报告就算完成了一次简单的模型优化。

问题 5:

银行怎样把机器学习运用到智能风控上?

//

嘉宾:

其实,机器学习算法在银行的应用越来越广,分类、聚类、关联等都可能用到,也会用到神经网络、深度学习、图算法等。

从应用方向上看,主要分为四类,分别是客户管理、精准营销、智能风控和运营管理。在四类应用方向中,客户管理是基础,通过机器学习可以实现精细化客户管理,在此基础之上,可以对精准营销、智能风控等进行赋能。

我主要说一下智能风控方面的应用,一般银行对智能风控的应用体现在互联网信贷上,如何识别、预测“坏客户”是重中之重。一般分为三大关卡:准入端、模型端、授信端,针对不同关卡设置不同的规则、模型、策略。其中用到的机器学习模型主要体现在评分卡模型以及各种分类预测算法,传统的评分卡模型为了追求解释性主要采用逻辑回归,也就是一种复杂特征工程与一种简单模型结合的方法,然而现在为了增加预测精度更多结合一些先进算法来挖掘更多潜在风险,近几年,对团伙以及关联关系的挖掘也层出不穷,图算法也是比较热门的算法之一,我们项目中也在用,在与传统的算法比较中也有比较突出的效果。

总之,机器学习算法在银行数字化转型的背景下越来越普遍的应用在各个业务场景中,神经网络、深度学习的算法也不断的被引用,作为职场新人的我也有很多要学习,希望和大家一起学习进步。

结语

感谢郭畅今天为大家带来的分享,随着互联网时代信息技术的不断发展,大数据逐渐被大众熟悉和使用,并上升为国家战略,在各行各业都得到广泛应用。银行因为其行业特性,在大数据应用之中有着得天独厚的优势。

以大数据为驱动,探索公司业务新增长模式,深入推进业务模式转型,已成为商业银行的共识。

让我们下期再见!

0 人点赞