早期传统金融的风控主要利用了信用属性强大的金融数据,一般采用20个维度左右的数据,利用评分来识别客户的还款能力和还款意愿。信用相关程度强的数据维度大概在十个左右,包含年龄、职业、收入、学历、工作单位、借贷情况、房产,汽车、单位、还贷记录等;而互联网金融公司在利用大数据进行风控的同时,会根据需求利用多维度数据来识别借款人风险,维度包括不限于:社交类数据、消费类数据、行为类数据、多源银行账户数据等。
结合中国互联网发展,以及目前的征信监管要求,对可用数据及可用风控类数据做一个全面的梳理。
图片
1.数据相关概念
1.1 数据定义
数据(data)是事实或观察的结果,是对客观事物的逻辑归纳,是用于表示客观事物的未经加工的原始素材。数据可以是连续的值,比如声音、图像,称为模拟数据。也可以是离散的,如符号、文字,称为数字数据。在计算机系统中,数据以二进制信息单元0,1的形式表示。
1.2 数据结构
数据类型:八种基本数据类型:byte、short、int、long、float、double、boolean、char。
数据维度:从多个角度(时间、地域、机构等方面)研究一个对象的信息,其中,被研究对象为实体,研究角度就成为维度。
静态数据:几乎不会改变的数据;
动态数据:随时间改变的数据。
动态数据与交易有关,针对不同的时期计算,如过去的1个月、3个月、6个月或12个月。
1.3 数据质量
数据透明度:充分评估风险所需的数据充足程度。
数据数量:数据的深度和广度,由可得性和同质性决定。
数据质量:数据能否符合某具体需求。高质量的数据应该具备相关性、准确性、完备性、时效性和一致性。关联性、准确性、完备性、时效性、一致性、对征信机构的影响。
数据设计:定义数据的类型。从实践或统计的角度出发,考虑数据缺失、分母为零的特例和数据设计的问题,最大化数据的价值。
数据类型、表格设计
1.4 数据问题
个人信息:法律规定,经过匿名化或者去身份化处理且不能复原的信息不属于个人信息。
合法合规性:确认数据合法性的边界,在合法合规的基础上对数据进行挖掘、存储、应用。
商业化、数据归属、数据窃取、数据隐私、合规输出、安全性、数据治理、数据全面、公正。
数据污染:
数据商业化:数据商业化输出的所有数据均不涉及原始数据。传输数据进行匿名化、去身份化,消除数据的身份可识别性。数据传输通过加密通道进行,保障数据传输过程中的安全性和可追溯性。
数据安全性:严格遵守数据管理流程,杜绝黑客、白客入侵,建立完善的数据安全管理体系。
使用目的:目的限制原则。合法合规,不能用于法律规定禁止行业。
数据存储:合作中所涉及的所有数据全部被存储在中华人民共和国境内。
数据保留:收到数据收集方或用户最终删除数据通知后,根据适用法律要求删除用户原始数据。
2.风控数据来源
2.1 数据应用逻辑
常见风控流程中,客户准入时提供的资信材料有限,业务机构风控数据体量不足,仅仅根据内部风险数据进行风险评估会非常片面,无法全面的把控某位客户的风险情况,所以通常需要依赖于第三方供应商提供数据作风控支撑。
第三方供应商基于自身的平台整合成数据网络,可关联更多的风险信息;而业务方仅需要根据自身储备的风险数据维度,适量补充短板,实现更全面的覆盖即可。对三方数据的使用,必须从贴近业务的角度出发。
本节,我们首先思考信贷业务风险类型,之后考虑为了解决不同类型的信用风险所需构建的用户风险画像依据。以此了解客户的信用习惯、借款目的、还款能力和还款意愿等。
2.1.1了解业务类型
2.1.1.1 机构类型
银行机构
银行机构-传统银行
银行机构-网络零售银行
银行机构-信用卡(类信用卡)
非银机构
非银机构-p2p
非银机构-小贷
非银机构-持牌小贷
非银机构-持牌网络小贷
非银机构-持牌小贷机构
非银机构-持牌消费金融
非银机构-持牌汽车金融
非银机构-持牌融资租赁
非银机构-现金类分期
非银机构-消费类分期
非银机构-代偿类分期
2.1.1.2 业务类型
线上现金分期
线上消费分期
线下现金分期
线下消费分期
汽车消费分期
线上小额现金贷
信用卡(类信用卡)
2.1.2梳理风险类别
了解不同业务类型、不同场景、不同定价利率的消费分期产品,所对应的信贷生命周期及信用风险类别。
2.1.2.1 贷前
恶意注册;欺诈风险;准入风险;信用风险;多头风险;定价风险;提现风险等。
2.1.2.2 贷中
偿债风险;共债风险;投诉风险;额度管理等。
2.1.2.3 贷后
催收级别;失联风险等。
2.1.3 制定风控流程
注册信息提交;生物信息识别;准入规则判定;身份信息验证;三方数据核验;授信定额定价;用户确认提现;贷中行为监测;额度利息管理;贷后催收管理等。
2.1.3.1 了解用户属性
人口属性:性别、年龄、职业、学历、收入、房车等;人生阶段:在校、工作、备婚、备孕等。
家庭属性:农业或非农业 五保户 低保户 复员退伍军人 独生子女家庭 特困户 企改下岗人员。
位置属性:常驻地地址、家乡地址、工作地址、地点偏好、差旅目的地等。
社会属性:党员/团员。
价值属性:有无车标识等。
消费属性:消费水平、消费品级、购买方式、购物行为、消费偏好等。
行为属性:生活行为、金融行为、旅游行为、社交行为等。
兴趣属性:金融偏好,上网目的等。
工作属性:白领/蓝领。
行业属性:房地产行业、教育行业、教育培训、旅游行业、汽车行业等。
设备属性:设备类型、设备价格、应用偏好,设备安装、卸载、打开、活跃,设备价格、关联手机号个数等。
2.1.3.2 了解个人资质
个人资质:查询用户消费、收入、资产、职业等信息,对用户消费等级、消费偏好、收入稳定性、职业稳定性等信息进行评估。
稳定性评估:收入稳定性、家庭稳定性、位置稳定性等。
2.1.3.3 评估还款能力
履约能力:判断收入范围,收入能力水平,消费能力水平,判断高净值用户
直接体现或者间接体现还款能力的:
家庭人数:家里人多,你还不起,催收后有人可以帮你还;
婚姻状态:大部分家庭,结婚的比未婚的家庭收入或经济稳定更好;
收入水平:单位名称、单位电话、工作职务、单位性质、收入来源、收入水平,直接体现收入水平及收入稳定性情况;
偿债压力指数:用户本人当前偿债压力指数的情况。数值越大,压力越大。
企业经营:经营企业详情、其他资质等信息。
2.1.3.4 评估还款意愿
贷款属性:多平台借贷情况等。
团伙欺诈排查:团伙欺诈排查通用版是基于自有海量数据,通过算法挖掘用户的团伙欺诈行为。
历史借贷记录:了解用户借贷意向,借款用途是否虚假,了解用户借贷行为,借贷行为偏好
对用户还款能力进行评估,对用户还款意愿进行评估。
历史欺诈记录:多头借贷倾向,信用风险提示,信用逾期预测。
综合信用情况:查询用户消费、收入、资产、职业等信息,对用户消费等级、消费偏好、收入稳定性、职业等信息进行评估。
2.1.4 构建风险画像
2.1.4.1 用户全面画像
身份信息画像:身份证、银行卡、手机卡、学历、职业、社保、公积金;
资产负债画像:资产信息、负债信息
工作学历画像:简历信息、学信网信息
家庭关系画像:家庭成员信息
借贷行为画像:注册信息、申请信息、共债信息、逾期信息;
消费行为画像:POS消费、保险消费、京东消费;
兴趣行为画像:APP偏好、浏览偏好、消费类型偏好;
出行信息:常出没区域、航旅出行、铁路出行;
公检法画像:失信被执行、涉诉、在逃、黄赌毒;
其他风险画像:航空铁路黑名单、支付欺诈、恶意骗贷。
社交行为画像:
设备指纹画像:
朋友圈风险画像:
2.1.5.2 数据应用原则
先内部后外部,先简单后复杂,先强后弱,先规则后模型。根据产品性质和要求接入,评估内部数据能否构建足够的用户画像,观察是否需要扩展数据,接入时符合合规要,要求高效、稳定、可靠,单数据源高覆盖度的话,可以不用接入多家比对。
2.1.5.3 应用决策思路
主要考虑以下:
长期拖欠 达到高期催收标准的逾期客户
申请信息虚假 表填信息虚假
资料虚假 除表填外提供的其他资料虚假
伪冒 冒用他人名义申请借款
丧失还款能力 申请人死亡、重病、被捕、被通缉、高负债
用途风险 借款用于赌博、还债等非法高风险用途
同行中介 信息被公开渠道披露为同行
法院-失信 法院失信名单
法院-被执行 法院执行名单;包含执行中、已结案、终本案件
近期存在多头申请风险 近期在多平台申请借款次数过多,且已达到风险阈值
模型评估低资质 基于历史数据训练,通过数据模型客观预测出的低资质客户
小额业务拖欠 在小额业务拖欠还款达到一定催收标准的逾期客户
首逾M3 合同首期即逾期,且连续逾期至M3,欺诈可能性高
小额业务获批困难 在小额业务难以获批或频繁拒贷,综合资质差
极黑用户和高危账户,纳入拒绝;;关注账户和灰度账户,放入模型中;风险用户,建议拉黑;无法确认,建议保留观察
2.2 用户进件提供
2.2.1个人信息
2.2.1.1身份信息
用户提交信息:证件类型、证件号码、姓名、曾用名、出生日期、年龄、户口所在地(省)、户口所在地(市)、籍贯、性别、婚姻状况、教育程度、所在地居住证、社会保障卡号、公积金卡号、手机号码、其他号码(区号)、其他号码(号码)、身份证有效期限(起),身份证有效期限(至)、身份证有效期限(年)、身份证上地址;
2.2.1.2银行卡信息
卡号、银行卡类型、预留手机号、绑卡身份证号、银行卡图片url路径、绑卡渠道
2.2.1.3 住宅信息
地址、省份、城市、区、起始居住时间、住宅类别、邮政编码、业主、关系、按揭供款/租金、与谁居住、总人数、居住年限、住宅电话(区号)、住宅电话(号码)
2.2.1.4 个人工作信息
2.2.2 联系人信息
姓名、关系、是否知悉贷款、手机号码、公司名称、职位、年龄、电话区号、座机号码、工作年限、每月收入
第一联系人:父母、配偶、亲属
第二联系人:同学、同事、朋友
2.2.3 设备信息
GPS信息、通讯录、通话记录、短信记录、安装APP列表、设备号、IP地址、操作系统、设备类型、设备型号、openUDID、是否越狱、是否root
2.3.3.1 设备信息属性
设备标签、设备品牌、设备类型、Android ID、设备序列号、IMEI、IMSI、设备MAC地址、设备硬件名称、设备主机地址、设备固件版本号、蓝牙mac地址、浏览、UserAgent、基带版本号、系统版本、系统设置中显示的版本号、SDK版本号、总内存(G)、总容量(G)、可用内存(G)、可用容量(G)、电池健康状态、电量(%)、电池状态、CPU类型、CPU子类型、CPU数量、GPS经纬度、占用内存(单位G)、可用内存(单位G)、wifi ssid、模拟器信息(是否是模拟器)、imei1、imei2、imsi1、imsi2、是否插sim卡、手机型号、产品制造商、设备名、主板型号、是否root、wifi mac、设备类型(手机/终端)等。
2.3.3.2 设备网络属性
运营商、国家代码、移动国家码、移动网络号、2G/3G/4G/WIFI)、网络信号类型、Sim卡信号类型、Sim卡序列号、外网IP、蜂窝内网IP、Wi-Fi内网IP、无线网络的名字、bssid,默认为路由器的mac地址、Wi-Fi掩码、网关、代理地址和端口号、当前连接的基站信息、经度、纬度、IP地址类型、IP所属国、IP一级行政区、IP二级行政区、IP三级行政区、IP属主、移动设备国家代码、移动设备网络代码、LAC或TAC、CELL Identity(、基站系统识别码、基站网络识别码、基站小区、基站类型
2.3.3.3 用户行为属性
当前时间、开机时间、运行时间(ms)、时区、设备语言、设备名称、屏幕亮度、键盘列表、电话号码、日期格式、是否自动网络对时、是否自动时区选择、小时格式、锁屏时间、有可用Wi-Fi时是否提示、休眠时保持WLAN网络的连接方式、获取位置的精度、是否使用锁屏图案、是否解锁图案可见、是否解锁震动反馈、字体大小、字体列表、用户程序列表、铃声列表、手机铃声、闹钟铃声、通知铃声、是否打开声音效果、是否输入密码显示最后一位、是否屏幕亮度自动调节、是否屏幕自动旋转、当前壁纸、系统程序列表
2.3.3.4 用户注册列表
统计n个月内,卸载/在装应用行为特征;应用行为活跃时间相关特征:总打开次数,总使用时长;地理位置相关特征;借款/还款信息。与有相同行为的人群进行纵向比较后给出得分,用户得分越高,表示其在整个相同行为的人群中相比新安装APP个数越多。
从APP的安装、活跃情况等行为中提取特征,并在相同兴趣人群中纵向比较,得到用户的国有银行类应用偏好。值越大,代表该用户对此行为的偏好程度越大。
App类别:办公管理、便捷生活、电话通讯、电子商务、电子阅读、教育培训、金融理财、聊天社交、旅游出行、拍摄美化、汽车服务、亲子服务、视频服务、系统工具 、音乐音频、游戏服务、运动健康、智能设备、综合资讯
app类别偏好标签:餐饮偏好、贷前标签、短期状态、阶段轨迹、金融通用标签、旅游行为标签、旅游偏好、汽车线下行为、人口属性、设备属性、社会分群、线下偏好、线下医疗健康、游戏偏好、运动、长期状态、资产属性
借贷行为偏好:设备指纹对应的借贷APP数量、消费分期APP数量、彩票APP数量、借贷APP数量占比、消费分期APP数量占比、彩票APP数量占比
2.3.3.5 通讯录列表
通讯录,主被叫号码,通话时长等。
2.3 内部系统生产
2.3.1 用户行为数据
2.3.1.1 生物识别信息
身份证信息:身份证号、身份证住址,身份证正面,身份证反面,有效日期,签发机构
活体检测信息:照片,活体检测数据,状态码,相似度,是否本人,验证次数。
2.3.1.2 行为埋点信息
用户登录日志,登录信息,浏览信息等。
打开app时间,上次登录时间,上次登录IP等。
2.3.2 订单明细数据
2.3.2.1 申请信息
申请编号;申请时间;申请渠道;申请产品:金额,周期,费率等;借款用途等。
2.3.2.2 审批信息
审批时间;拒绝原因;风险类型;审批备注;当前状态等。
2.3.2.3 订单信息
名单编号;借款金额;服务费;实放金额;放款状态;放款失败原因等。
2.3.2.4 还款信息
还款时间;还款方式;应还金额;还款通道;财务减免;滞纳金额;还款状态;还款期数;是否结清等。
2.3.2.5 催收信息
添加时间;’订单状态;催收员信息;联系状态;最后跟进时间;备注信息;通话记录;关键词命中情况等。
2.3.3 风险名单数据
2.3.3.1 黑灰白名单
姓名,身份证,手机号,黑/灰/白原因
2.3.3.2 ip、域名名单
风险ip;风险域名
2.3.3.3 设备名单
风险设备号
2.3.3.4 渠道名单
渠道;联系人;联系电话;推广链接;渠道限量;平台流量监控;合作结算等。
2.3.4 中台衍生数据
2.3.4.1 客户关系管理
客户联系:指与客户互动的信息,有内向联系和外向联系两种情况:
内向联系:指客户通过询问或投诉主动与贷款机构联系;
外向联系:贷款机构通过电话推销或直邮与客户联系,也包括贷款机构购买市场信息来决定联系哪些客户。
获客过程:申请表格的信息以及申请过程中的其他信息,特别是征信数据和账户表现情况等。这些数据主要用于信贷审批和申请监控,也可以用于早期的客户关系管理。
账户管理:从现有账户总结得到的信息,包括最小值、最大值、平均值、比率和次数等。
催收回收:催收回收信息是账户进入催收阶段的细节信息,需要不断更新,还有与回收相关的联系信息和结果。不同阶段总结的信息有所不同,例如过去三个月超限的天数、过去六个月拒付次数、平均账户余额、过去六个月最长逾期天数、当前逾期金额和过去六个月的还款比例等。
除了上述与信用风险管理直接相关的数据外,在账户操作管理、操作风险管理及客户关系管理中也会使用其他数据。
客户管理:客户管理总结客户关系,制定相应策略。产品层面的细节视机构而定,有些只需要总结信息,减少数据存档负担;有些需要账户的全面信息。还有公司用市场信息和财务信息作为补充。
2.3.4.2 交易支付
交易数据是细节的终极体现,包括所有支付进出的信息,比如交易时间、交易金额、交易对象、交易目的、交易时间与交易金额会在支付和收取过程中体现,交易对象和交易目的则不一定。账户代码和类别代码会显示在电子交易记录中,商家代码会出现在信用卡支付中,支票交易有支票编号。
2.3.4.3 授权记录
在授权阶段,信用卡交易通常会暂时放在单独的数据库中。一旦授权通过,交易记录会转到主账户中;如果授权不通过,交易记录会单独保留在别的数据库中。非交易产品或即时交易不需要这种数据库。
2.3.4.5 个体了解
客户个人关系有时候不被归为借贷关系。虽然它也可能和风险有关,但由于各种原因,通常不被传统评分卡采用。
财务状况:财务状况是客户的财务信息,如资产负债表和损益表,通常针对中级市场,对中小企业和个人贷款也适用。
安全:任何增信方法都是为了保证贷款资金的安全,包括担保和抵押品(固定资产、流动资产、移动资产)。考虑到成本和风险,交易型贷款通常不太看中抵押品。
欺诈:我们需要已知和涉嫌欺诈的名单,包括姓名、身份识别码、电话号码和地址。对每个新申请都要检索一遍,如果发现匹配则需要进一步分析。如果申请者填写的地址和号码与欺诈者匹配上了,但其毫不知情,申请是真实的,我们需要相应更新数据库。
2.4 外部机构合作
数据分类:只列举常见并且在金融领域能够起到一定风险识别作用的数据。包括不限于金融数据、银联数据、运营商数据。
顺序逻辑:按照获取从难到易,数据效度从高到底排序。
数据来源:金融、房地产、零售行业、移动设备等。
数据要求:法律规定,企业合法,数据合法,用户授权等。
数据特点:丰富、敏感、不便展示。
2.4.1 社保数据
经用户授权采集其社保数据,包括:社保账户信息、五险缴费记录(最多10年)和医疗消费记录
参保单位个人信息、城居养老保险缴费明细信息、城居养老保险参保人信息、参保单位基本信息、单位缴费比例、单位款项明细信息、待遇类别表、个人参保信息、医保个人基本信息、个人账户实际收支记录信息、IC卡个人帐户余额变化信息、缴费明细信息、款项类别信息、企业养老保险单位参保信息、企业养老保险人员参保信息、企业养老保险参保人员信息、企业养老保险人员缴费记录、失业个人基本信息、险种应缴信息、险种子项表、医疗个人账户、医疗机构、医疗业务完成历史表、医疗业务信息、正常失业待遇信息
2.4.2 网络征信数据
2.4.2.1 央行征信
央行征信数据总体上体现负债情况和信用情况的:央行征信报告。央行征信数据,权威、真实、合规。央行的征信接口对所有持牌机构开放,但目前市面上的金融公司都没有直连央行接口。因为开发接口除了耗时费力,还关乎很多细节问题,技术、政策等,所以一般都会跟某个机构对接后,查询央行征信的数据
2.4.2.2 百行征信
由于央行征信系统没有覆盖P2P平台等机构,百行征信顺势而生。百行征信也是国内唯一一家持牌市场化个人征信机构。机构主要由考拉征信、鹏元征信、91征信、安融征信、立木征信、凭安征信、前海征信、中诚信征信、华道征信、中智诚征信等组成。未来百行能不能有效被使用上还有待观察,但风控人员可先了解其相关的资料。百行征信涉及的模块,主要包括以下方面:
报告相关数据:报告时间;查询原因;查询结果等。
综合信息:手机号数量;累计贷款笔数;居住信息;职业信息;机构查询信息等。
未结清贷款:未结清贷款笔数/金额等。
逾期情况:当前逾期贷款笔数;当前最严重逾期状态;历史最严重逾期状态;累计逾期次数等。
非循环贷情况:新增贷款笔数/金额/机构数;逾期贷款笔数/金额/机构数等。
循环贷情况:循环授信信息;新增贷款笔数/金额/机构数;逾期贷款笔数/金额/机构数等。
2.4.2.3 民间信用
芝麻信用
网贷机构黑名单
逾期名单、多头名单、失信名单等。
2.4.3 网络借贷数据
微粒贷
借贷宝
2.4.4 网络消费数据
2.4.4.1 网银数据
经用户授权采集其网上银行数据,包括:储蓄卡账户信息和交易流水、信用卡账户信息和账单明细、贷款记录
查询用户网银流水信用卡报告(目前支持16家信用卡)
2.4.4.2 银联数据
2.4.4.3 信用卡账单
经用户授权采集其邮箱中的信用卡账单数据,包括:信用卡账户信息、每月账单明细、交易流水和分期记录
2.4.4.4 支付数据
支付宝
经用户授权采集其支付宝数据,包括:支付宝账户信息、绑定银行卡、交易流水和金融产品信息
2.4.4.5 电商数据
电商社交数据适合线上行为活跃的群体,尤其是适合现金贷及有场景用户,比如3C数码、医美、教育等消费分期领域。对线上行为特别稀疏的传统的线下人群,要利用电商社交数据做征信评估基本不可行。
电商数据需要和其他数据配合使用,才能发挥最大的价值。
电商数据在反欺诈领域的应用来得比信用评估更直接。识别出的异常购物记录和敏感行为用户坏账率比正常客户要高。
2.4.4.6 车险保单数据
经用户授权采集其车险保单数据,包括:保单和保费信息、车辆信息、投保人和被投保人信息
2.4.5 网络出行数据
2.4.5.1 滴滴数据
2.4.5.2 铁旅数据
2.4.5.3 航空数据
2.4.6 网络社交数据
在以上的产品中,我们都能看到一个高危行为的定义,所谓高危行为一般为:申请信息中身份证号关联多个(>3个)手机号、或手机号关联多个(>3个)身份证号。
并且在BiRong的数据中,还有一个跟查询用户一度关系、二度关系的数据查询情况,
一度关系:百融关系库中与本人有直接关联的人,一般是直系亲属、关系紧密的朋友
二度关系:百融关系库中与一度关系有直接关系的人
一般关于这个关系库,我们也常使用以下规则:联系人的先都不拒,低风险的放开,高风险的拒绝
2.4.6.1 运营商数据
经用户授权采集其运营商数据,包括:手机账户、通话详单、短信详单、流量详单、缴费信息、账单信息和套餐使用量。
2.4.6.2 QQ数据
经用户授权采集其QQ空间数据,包括:QQ账户信息、好友信息和QQ群信息
关注:借贷群、分期群、理财群、薅羊毛群、赌博彩票群
2.4.6.3 邮箱数据
支持:qq, sina, 163, 126, vip.126, vip.163, 188, yeah, sohu, 21cn
2.4.6.4 微信数据
2.4.6.5 领英数据
经用户授权采集其Linkedin(领英)数据,包括:领英账户信息、教育经历、工作经历和职场人脉信息
2.4.7 企业类征信数据
功能:判断法人是否涉嫌欺诈、企业是否涉嫌欺诈、法人是否失信、企业是否失信、法人不良名单、企业是否欠税、企业基本工商信息、企业工商数据、风险信息查询。
分类:企业类型、工商数据、税务数据、发票数据、涉税数据、涉诉数据、海关数据、环保数据、信用数据、招聘数据、新闻数据、商标数据、知识产权、软件著作、受惩黑名单数据、大企业股权出质、大企业动产质押、经营异常、公司产品、动态情报、网站信息、控股公司、联系信息、股权冻结、动产抵押、受益人、严重违法、简易注销、工商快照、实际控制人、股权出质、对外投资、对外投资穿透、经营状况、经营风险。
细分:利润表(小企业会计制度)_年报信息、企业资产负债表(小企业会计制度)、企业利润表(小企业会计制度)、小规模纳税人申报明细主表、一般纳税人申报明细主表、企业违法违章、企业申报信息、纳税人信用等级、企业投资方(自然人出资信息)、企业变更信息、企业欠税信息、企业主要人员
2.4.7.1 司法数据
2.4.7.2 经营数据
水、电、气,财务等。
2.4.7.3 发票数据
2.4.7.4 税务数据
列举下几个税种的介绍说明:
增值税
1.对企业生产经营过程中,价值增值的部分进行的征税(只对经营过程中增加的附加值征税,避免了重复征税))
- 进项税:企业收到其他企业开具的专票上的税额叫进项税,可以抵扣
- 销项税:企业自己开具给别人的发票上的税额是销项税,也就是自己取得收入该缴纳的税款;
企业所得税
1.除了增值税,企业如果有盈利,还要缴纳企业所得税
计算公式为:企业所得税=应缴纳所得额*25% 高新技术企业可获得10%的所得税减免
个人所得税
1.向个人征收的,企业需要进行代扣代缴;
2.个体工商户的经营所得也需要缴纳个人所得税;
另外在票税类数据构成上,主要有以下类型:
企业基本信息、工商、税务登记信息、纳税信用评级、纳税申报信息、实际缴纳信息
2.4.8 其他数据
机动车登记;城市电话黄页;房地产服务等。
3.内部数据挖掘
3.1 数据收集
3.1.1 收集来源
3.1.1.1 用户基本信息
由用户通过app提交。关于用户基本信息,需要特殊处理的字段可能包括身份证、地址等。
3.1.1.2 订单记录
由系统生产。表格数据完整,缺失程度低,挖掘之前通常需要进行多表关联查询。
3.1.1.3 催收记录
可以从运营平台输入,也可人工记录后批量导入。涉及一些点通话记录和人工标签,会有关键词识别和特殊字符处理的需求。
3.1.1.4 三方数据源
通过api方式获取。主要是一些多层嵌套json数据,需要进行解析之后根据需求存入不同类型的数据库,备用。
3.2 数据存储
3.2.1 数据存储形式
不同类型、体量的数据,需要使用不同的数据库进行存储,根据业务要求,可参考以下几点:
Mysql:可存储日常订单数据。
Redis:可存储实时进件请求。
Mongodb:可存储三方接入数据。
Neo4j:可存储用户之间的关系数据。
Hbase:可存储日志明细、交易清单、轨迹行为等。
Hive:可存储大量流水数据。
数据库的选用,主要与其设计及性能相关:
Mysql:mysql是关系型数据库,主要用于存放持久化数据,将数据存储在硬盘中,读取速度较慢。
Redis:Redis 是NOSQL,即非关系型数据库,是一个高性能的key-value缓存数据库,即将数据存储在缓存中,缓存的读取速度快,支持主从同步, 能够大大的提高运行效率,但是保存时间有限。
Mongodb:MongoDB是一个介于关系数据库和非关系数据库之间的产品,是非关系数据库当中功能最丰富,最像关系数据库的。它支持的数据结构非常松散,是类似json的bson格式,因此可以存储比较复杂的数据类型。Mongo最大的特点是它支持的查询语言非常强大,其语法有点类似于面向对象的查询语言,几乎可以实现类似关系数据库单表查询的绝大部分功能,而且还支持对数据建立索引。
Neo4j:存储节点数据,如网络节点之间的关系数据。是一个高性能的,NOSQL图形数据库,它将结构化数据存储在网络上而不是表中。neo4j适合于社区网站的关系:用户之间的关系有朋友关系,亲友关系,同事关系等,把每个人来看作是一个结点,用户与用户之间的关系看作是一条边,这样整个社源区就像一张大的图一样。
Hbase:存储量级要求比较大、数据更新频繁、查询复杂度高、字段扩展性好的数据。Hadoop database 的简称,也就是基于Hadoop的数据库,是一种NoSQL数据库,主要适用于海量明细数据(十亿、百亿)的随机实时查询。
Hive:Hive是Hadoop数据仓库,严格来说,不是数据库,主要是让开发人员能够通过SQL来计算和处理HDFS上的结构化数据,适用于离线的批量数据计算。Hive 没有专门的数据存储格式,也没有为数据建立索引,Hive 中所有的数据都存储在 HDFS 中,Hive 中包含以下数据模型:表(Table),外部表(External Table),分区(Partition),桶(Bucket)。
在大数据架构中,Hive和HBase是协作关系,数据流一般如下图:
- 通过ETL工具将数据源抽取到HDFS存储;
- 通过Hive清洗、处理和计算原始数据;
- HIve清洗处理后的结果,如果是面向海量数据随机查询场景的可存入Hbase
- 数据应用从HBase查询数据;
3.3 数据处理
3.3.1 表格数据处理
时间格式;范围约束;脱敏处理;离散化处理;变量衍生等。
3.3.2 自然语言处理
分词;标注;命名实体;情感分析;地址分析;文本挖掘等;
3.3.3 地理位置解析
归属地解析:针对上传的ip、GPS、手机号等信息的归属地进行详细的解析,输出对应的归属地信息;处理如分级地址、GPS坐标、文本地址等地址数据。
3.4 数据挖掘
3.4.1 分类标签
分类(classification),对于一个分类员来说,通常需要你告诉它“这个东西被分为某某类”,理想情况下,一个分类员会从它得到的训练集合中进行“学习”,从而具备对未知数据进行分类的能力,这种提供训练数据的过程通常叫做supervised learning(监督学习)。
在很多业务场景中,即使一些很常见如男女、学历、是否有车、是否有孩、是否可联等的标签,只要用户没有直接提供或者无法直接得出结论,都需要去基于业务理解和大量留存数据对齐进行分类分析。
3.4.2 聚类标签
聚类(clustering),简单的说就是把相似的东西分到一组,聚类的时候,我们并不关心某一类是什么,我们需要实现的目标只是把相似的东西聚到一起,因此,一个聚类算法通常只需要知道如何计算相似度就可以开始工作了(距离矩阵),因此clustering通常并不需要使用训练数据进行学习,这在Machine Learning中被称作unsupervised learning(无监督学习)。
3.4.3 关系网络
可视化关联图谱(树图、发散图、力导向图、弦图)
3.5 数据分析
多维统计分析
关联性分析
插值预测分析
违约预测分析等
4.外部数据接入
4.1 产品清单
4.1.1 稽查核验类
通过验证客户申请信息之间的关联关系,来判断客户的风险。
4.1.1.1 基本信息认证
姓名:请求信息中的姓名
年龄:请求信息中根据身份证号计算的年龄
性别:请求信息中根据身份证号计算的性别
邮箱:公积金中邮箱
身份证认证:请求信息中的身份证号码
身份证归属地:请求信息中身份证的归属地
银行卡认证:
手机号实名认证:
身份证二要素认证:身份证号 姓名——从身份证和姓名的信息,返回个人的信息匹配情况,是否存在该身份证信息,核查身份证姓名是否一致。
手机号三要素验证:验证移动、联通、电信手机号与绑定身份证号和姓名是否一致。
银行卡四要素验证:验证用户银行卡号、姓名、身份证号、手机号与银行预留信息是否一致。
身份证认证(不返回照片):认证姓名和身份证是否一致(支持大陆公民的身份证认证)
身份证认证(返回照片):认证姓名和身份证是否一致,一致时返回身份证头像照片(支持大陆公民的身份证认证)
银行卡两要素认证:认证姓名.姓名和银行卡号是否一致;
银行卡三要素认证:认证姓名.身份证和银行卡号是否一致;
银行卡四要素认证:认证姓名,身份证,手机号和银行卡号是否一致;
银行卡四要素认证(发短信):认证姓名,身份证,手机号和银行卡号是否一致,一致后向商户手机号发送认证码进行短信校验;
打款认证:通过比对商户打款金额与被认证用户实收金额是否一致,以此来认证银行卡归属
4.1.1.2 身份信息认证
学历学籍认证;社保公积金认证;支付宝实名认证;淘宝认证;公积金认证;网银账单认证;信用卡账单数据;借记卡账单数据等。
4.1.1.3 生物识别验证
人脸识别验证:对比用户提供照片与身份证照片的相似度。
照片比对:OC认证,虚假身份证等伪冒风险的克星
人脸对比:测进件的是不是一个真实的人(关于这点可以参阅,之前我们公众号的文章:揭秘OCR的策略规则)
活体识别:
4.1.1.4 运营商信息验证
短信认证:
手机所属运营商:请求信息中手机号码所属的运营商
手机号码归属地:请求信息中手机号码的归属地
手机在网状态:验证移动、联通、电信手机的在网状态。
手机在网时长:验证手机的在网时长区间,按自然月统计。在网时长=销号时间-开户时间,停机计入时长。
手机号归属地查询;家庭固话;进件单位电话核验;三方单位电话核验等。
4.1.1.5 地址信息验证
输入地址与手机号码地址、最近使用地址、历史使用地址的关联。
身份证号手机号归属地:查询身份证号和手机号所属地区。用户详细地址信息与机构地址信息库的一致性核查。
家庭地址校验;企业位置核验;单位地址验证;常驻地址核验;GPS地址校验等。
4.1.1.6 借贷行为验证
借贷行为验证:用户在百融的虚拟信贷联盟中的借贷行为情况。
借贷意向验证:用户近7/15天、1/3/6/12个月在百融的虚拟信贷联盟(银行、非银、非银细分类型)中的多次信贷申请情况。
4.1.1.7 政法信息认证
法院信息详情-个人版:查询个人涉及法院信息的详情,共8类:开庭公告、案件流程、网贷黑名单、裁判文书、执行公告、失信公告、法院公告、曝光台。
法院信息详情-企业版:查询企业涉及法院信息的详情,共8类:开庭公告、案件流程、网贷黑名单、裁判文书、执行公告、失信公告、法院公告、曝光台。
法院被执行人:法院失信被执行人、被执行人的执行案件信息。
公安黑名单(不良犯罪记录):在第一条的基础上,是否还能检测到该身份证有名字公安库中的不良犯罪记录等,目前有个别厂家能支持这样的信息查询。
4.1.1.8 车辆信息查验
车主认证:所有人姓名,所有人核验结果,手机号码,准驾车型,车产状态,有几辆车
车辆认证:车牌号是否匹配,初次登记日期,号牌号码,号牌种类,发动机号码,车产价值(范围)
4.1.1.9 其他信息核验
4.1.2 名单标签类
4.1.2.1 黑名单
高风险-信贷行业-信贷欺诈黑名单;内部黑名单;机构黑名单;征信黑名单;信用卡欺诈黑名单;运营商黑名单;网购黑名单等。一经标记,最好再无业务往来。
4.1.2.2 风险名单
4.1.2.2.1 违约风险名单
征信风险名单:
信贷逾期:机构逾期,平台标记风险
用途风险:借款用于赌博、还债等非法高风险用途
不良客户:低资质且有较高还款风险的客户
丧失还款能力:申请人死亡、重病、被捕、被通缉、高负债
严重欺诈严重违约历史高危行为
高风险交易信贷行为、高危网络行为
长期拖欠:达到高期催收标准的逾期客户
4.1.2.2.2 欺诈风险名单
疑似欺诈或高风险
是否欺诈人员
信贷欺诈:支付欺诈,恶意骗贷,违法黑产。欺诈风险提示,欺诈作案APP用户。
垃圾账号:养号,盗号,注册、贷款、短信验证时可能对平台发起攻击
资料虚假:除表填外提供的其他资料虚假,申请信息虚假:表填信息虚假
恶意欺诈:疑似存在欺诈历史
伪冒包装:疑似用虚假资料包装,冒用他人名义申请借款
恶意行为:在社交、o2o、社区等疑似有不良的行为
营销欺诈:比如薅羊毛
风险交易:盗刷、洗钱、刷单,套现,境外欺诈
同行中介:信息被公开渠道披露为同行
4.1.2.2.3 多头风险名单
多头借贷:判断匹配维度任意1小时到90天时间段内的申请多头数量是否存在过多现象。
征信多头名单:
机构多头名单:
4.1.2.2.4 白户风险名单
白户申请:判断匹配维度任意1小时到90天时间段内是否不存在申请记录。
4.1.2.2.5 银联风险名单
银联风险首单商户:是否可疑商户,是否风险商户,是否收单预警商户。
银联不良持卡人:是否不良持卡人,是否经济犯罪人员,是否涉恐人员,是否触犯风险规则人员。
不良银联卡:是否欺诈交易卡片,是否涉案卡片,是否线下卡号黑名单,是否线上卡号黑名单,是否其它卡号黑名单。
银联风险电话:是否线上的交易手机号黑名单,是否虚假电话号码,是否诈骗、中介、违法电话号码。
4.1.2.3 负面逾期
公共失信、信贷逾期、交易欺诈;不良中介;虚假申请;风险用途;账户盗用;关联欺诈等。
身份证负面情况;手机号负面情况;联系人负面情况;邮箱设备负面情况等。
4.1.2.4 特殊名单
资信不佳:提供的申请资料未达到准入标准、信息被伪冒
4.1.2.4.1 政府失信名单
工商偷税漏税,股权冻结,无照经营,法院被执行人,行政处罚
法律灰名单:高危用户,在逃嫌犯,法院失信。
涉诉名单:
通缉名单:
限制高消费名单:
限制出入境名单:
综治办名单:吸毒、上访、刑满释放人员、社区矫正人员等。
卫计委名单:
法院被执行人:被执行人是指在法定的上诉期满后,或终审判决作出后,拒不履行法院判决或仲裁裁决的当事人
法院失信被执行人:具有履行能力而不履行生效法律文书确定的义务,但是故意抗拒执行义务的被执行人
其他不良记录:
4.1.2.4.2 行业催收名单
针对申请人与催收电话、疑似催收电话的通话行为进行分析,返回催收通话频度、主/被叫、时长、周期等数据统计,返回近100个数据变量用于建模和客户筛选
4.1.2.5 联合建模标签
联合建模标签是根据人机结合,人工分类后,再经过大量机器学习、深度学习算法学习衍生;结合了真实贷后数据校验,对联合建模中逾期表现区分度较大,IV值普遍在0.2以上;为客户的贷前、贷中、贷后风险识别提供多维度的数据支持,能够精准预测用户风险等级,实现用户有效分层。
4.1.3 评分评级类
4.1.3.1 基于评分功能
(信用)信用评分产品
(欺诈)欺诈评分产品
(价值)价值评分产品
(价值)综合信用评级
4.1.3.2 基于应用场景
根据评分需求,增加实时运营商抓取信息、第三方支付信息、信用卡账单信息等数据内容,构建适用于场景的定制评分。
(现金贷)小额信贷评分
(现金贷)现金分期评分
(消费贷)场景分期评分
(消费贷)场景定制
(消费贷)线下消费分期
(消费贷)线上现金分期
(信用卡)信用卡评分
(信用卡)虚拟信用卡
(信用卡)信用卡代偿评分
(汽车贷)汽车金融评分
4.1.3.3 基于开发逻辑
(经验)经验驱动评分
(技术)统计驱动评分
(技术)机器学习评分
(技术)深度学习评分
4.1.3.4 基于生命周期
(售前)营销响应评分
(贷前)欺诈风险识别
(贷前)信用风险识别
(贷中)贷中行为评分
(贷中)额度管理评分
(贷后)失联预测评分
(贷后)偿债能力评分
申请准入分:申请准入置信度 申请命中查询机构数 申请命中消费金融类机构数 申请命中网络贷款类机构数 机构总查询次数 最近一次机构查询时间 近1个月贷款类机构总查询笔数 近3个月贷款类机构总查询笔数 近6个月贷款类机构总查询笔数
贷款行为分:贷款行为置信度 贷款放款总订单数 贷款已结清订单数 贷款逾期订单数(M1) 命中贷款放款机构数 命中消费金融类机构数 命中网络贷款类机构数 近1个月贷款机构放款笔数 近3个月贷款机构放款笔数 近6个月贷款机构放款笔数 历史贷款机构成功扣款笔数 历史贷款机构失败扣款笔数 近1个月贷款机构成功扣款笔数 近1个月贷款机构失败扣款笔数 信用贷款时长 最近一次贷款放款时间
信用现状:建议授信额度 建议额度置信度 命中在用的网络贷款类机构数 命中在用的网络贷款类产品数 网络贷款机构最大授信额度 网络贷款机构平均授信额度 命中在用的消费金融类机构数 命中在用的消费金融类产品数 消费金融类机构最大授信额度 消费金融类机构平均授信额度
评分区间
0~10
0~100
350~850
评分等级
A、B、C、D、E
一级、二级、三级、四级、五级
4.1.4 行为明细类
部分数据特征需求。
4.1.4.1 征信查询记录
查询原因:
贷款审批、贷后管理、信用卡审批、担保资格审查、保前审查。
按查询主键:按身份证号查询,按手机号查询
按申请主体:
近3月查询笔数
被查询人的真实姓名
被查询人的身份证号码仅支持18位身份证
发起查询请求公司的代码
4.1.4.2 借贷交易记录
包含历史上平台查询此借款人的机构名称、查询时间、机构类型、查询原因、借款记录历史、提供数据的机构代号、被查询借款人姓名、被查询借款人身份证号、借款时间、借款期数、借款金额、审批结果 、还款状态、借款类型、逾期金额、逾期情况、历史逾期总次数、历史逾期M3 次数、历史逾期M6 次数。
多头借贷
多头的情况,即在多家非银机构中申请的贷款的情况,包括:多头申请、多头拒贷、多头放款、多头逾期、信用状态/负债报告等。按照多头的时间维度可以细分为:近7天;近15天;近1个月-最近30天;近3个月-最近90天;近6个月-最近180天;最近最早申请记录。
按统计单位:申请次数,连续申请次数,申请机构数
按申请时间:近6月,近12月,夜间申请,周末申请,申请间隔天数,连续申请的持续天数,最小间隔天数,最大间隔天数,有申请记录月份数,平均每月申请(有申请月份平均)
近n个月:频繁申请;拒贷较多;电话失联;已结案;逾期还清;逾期中;执行中;终本案件。
多头报告
注册机构数量 注册机构数(去重)
注册机构类型 输入信息的注册机类型(去重)
第三方渠道注册机构数量 第三方来源授权多头(去重)
机构查询次数 机构查询次数(不去重)
机构类型 注册机类型
近n天贷款申请次数 近n天申请该机构类型贷款的次数
查询日期 该用户被查询的日期
机构类型 该用户被查询的机构的类型
是否本机构查询 是否为本机构查询:是/否
借贷机构数(去重) 放贷的机构数(去重)
借贷次数 放贷的次数
近n天贷款的机构数 近n天放贷的机构数(去重)
近n天贷款的次数 近n天放贷的次数
还有如借款金额;借款时间;还款状态;借款类型码;被查询借款人姓名;逾期金额;历史M3 逾期次数;历史M6 逾期次数;逾期情况;历史逾期总次数;期数;风险明细;命中项码;命中内容;风险最近时间等。
4.1.4.3 逾期历史记录
判断手机、姓名、身份证是否在黑名单;灰名单;灰名单更新时间。以及逾期次数;最大逾期金额;最大逾期天数。
逾期类型:法院-被执行;近期存在多头申请风险;模型评估低资质;小额业务拖欠;长期拖欠
是否拉黑:判断是否拉黑,了解拉黑明细
是否白户:查不到用户相关数据
逾期未还款行为:当前存在逾期未还款行为
最大逾期金额:用户借款并未按时还款的最大金额
最长逾期天数:用户最长逾期天数
最近逾期时间:用户最近逾期的时间
当前逾期机构数:截止查询时间,用户产生逾期的全部机构个数
当前履约机构数:截止查询时间,用户正常还款的全部机构个数
异常还款机构数:截止查询时间,用户最后交易行为银行卡注销、挂失等高危行为的机构个数
睡眠机构数:截止查询时间,用户6个月内无交易记录的机构数
4.1.5 画像报告类
报告可以理解为较为完整的数据字典。
4.1.5.1 人行征信报告
人行征信报告编号
用户姓名
证件类型:如身份证等
证件号码:人行征信报告中证件号码是不全的。
用户申请人行征信报告的时间,人行征信报告的生成时间
婚姻状态:
信贷记录
账户类型:1.信用卡 2.住房贷款 3.其它贷款
账户数:’未结清、未销户账户数;发生过逾期的账户数;发生过90天以上逾期的账户数 为他人担保笔数
信贷类型:1.信用卡 2.住房贷款 3.其它贷款
账户类型:1.发生过逾期的贷记卡账户 2.从未逾期过的贷记卡及透支未超过60天的准贷记卡账户 3.从未逾期过的账户 4.透支超过60天的准贷记卡账户 5.发生过逾期的账户
账户明细:记录了该账户是否逾期, 销户等情况
公共记录
公共记录类型: 1.欠税记录 2.民事判决记录 3.强制执行记录 4.行政处罚记录 5.电信欠费记录
公共记录明细:
查询记录
查询时间:
查询操作员:
查询原因:信用卡审批 , 贷后管理 , 贷款审批 ,本人查询
信用卡记录详细信息
信用卡发放的时间
发放信用卡银行的名称
信用卡类型 包括: 贷记卡, 准贷记卡;
账户的币种 包括: 人民币账户, 美元账户
本征信报告获取本信用卡信息的最后时间 如果该账户已销户,则表示销户时间
信用额度 单位为人民币, 如果是美元账户, 信用额度是折合人民币的额度。
已使用额度 贷记卡账户为信用额度
透支余额 准贷记卡账户为透支余额
是否激活过
是否已销户
是否有逾期记录
有过逾期记录的月数
准贷记卡账户是否有大于60天逾期记录
准记卡账户有超过60天逾期记录月数
该账户是否有超过90天
该账户有超过90天逾期记录月数
购房贷款记录
贷款发放的时间
发放贷款银行的名称
贷款币种 人民币
购房贷款总金额
贷款对象 包括个人住房贷款,个人商用房(包括商住两用)贷款和个人住房公积金贷款。
购房贷款到期日
本征信报告获取本购房贷款信息的最后时间 如果已结清,则是是结清时间
购房贷款是否已结清
购房贷款余额
购房贷款是否有逾期
购房贷款有逾期的月数
购房贷款是否有超过90天的逾期
购房逾期超过90天的月数
4.1.5.2 运营商报告
身份证号归属地
手机号码归属地
手机运营商
一阶联系人黑名单个数 借款人的一阶联系人中,被认定为黑名单的个数/人数
一阶联系人逾期个数 借款人的一阶联系人中,借款发生逾期的个数/人数
一阶联系人逾期m3 个数 借款人的一阶联系人中,历史逾期天数大于等于90天,包含逾期还清
一阶联系人黑名单数占比
一阶联系人逾期占比
二阶联系人黑名单个数 借款人的二阶联系人中,被认定为黑名单的个数/人数
二阶联系人逾期个数 借款人的二阶联系人中,借款发生逾期的个数/人数
二阶联系人逾期m3 个数 借款人的二阶联系人中,历史逾期天数大于等于90天,包含逾期还清
主叫联系人数 主叫联系人数
主叫联系人黑名单个数 主叫联系人中,被认定为黑名单的人数
主叫联系人逾期个数 主叫联系人中,当前逾期天数大于等于4天
夜间通话人数
夜间通话次数
夜间通话秒数
与虚拟号码通话人数、次数、秒数
异地通话人数、次数、秒数
与澳门通话人数、次数、秒数
与银行或同行通话总次数
与银行或同行通话总秒数
与法院通话次数
与律师通话次数
夜间通话 24点到5点
一阶联系人 与借款人本人直接联系的联系人,即借款人的一度关联人
二阶联系人 与一阶联系人直接联系的联系人,即借款人的二度关联人
一阶联系人黑名单个数 借款人的一阶联系人中,被认定为黑名单的个数/人数
一阶联系人逾期个数 借款人的一阶联系人中,借款发生逾期的个数/人数
主叫联系人 借款人主动拨打的联系人
“逾期”的判定标准 当前逾期,且逾期≥4天
“逾期M3 ”的判定标准 曾经逾期,且逾期≥90天,包含逾期还清
4.1.5.3 银联消费报告
银联智策失败交易查询
银行卡卡号
debit代表借记卡,"credit"代表信用卡
卡使用状态
客户等级:不活跃客户、长期忠诚客户、活跃上升客户、活跃下降客户、自激活或新客户、睡眠客户
衡量持卡人套现风险
衡量持卡人是否合理使用资金
持卡人价值
消费习惯,财富水平
逾期风险
消费稳定性
跨境倾向
累加消费金额、最大消费金额、最小消费金额、累计交易金额/交易笔数。
近n个月发生批发类交易、餐饮交易、仓储超市、批发交易、储蓄交易、取现交易、跨境交易、转出交易、转入交易、周末交易、卫生类交易金额之和
持卡人划卡次数很少,用卡商户类型,总交易金额,刷卡消费稳定性,用卡范围
4.1.5.4 电商消费报告
月消费金额
非生活必需品消费类金额(含奢侈品、SPA、运动类、图书类等)
生活必需品消费类金额(餐饮消费等)
境外消费类总金额
婴幼儿消费总金额
车辆类消费总金额
是否命中购房记录
是否命中否购车
常用消费城市
常用消费时间段
月均消费金额
银行卡核验结果
非生活必需品消费
生活必需品消费金额
境外消费总金额
婴幼儿消费总金额
是否命中购房记录
是否命中购车记录
常用消费城市
常用消费时段
4.1.5.5 出行消费报告
非常用地消费总金额
航旅出行频率评估
高铁出行频率评估
最频繁出行地点
工作时段(早9-晚5)地区
休息时段(晚00:00-早5:00)地区
常用地消费金额
常用消费城市
常用消费时间段
航空出行报告
乘机次数
国内次数
平均国内票价、折扣
国际次数
平均国际票价
最爱航司前三名
最爱航司次数1-3
最爱目的地1-3
最爱目的地次数1-3
国内头等、商务、经济次数
平均延误分钟数
延误次数(大于30分钟)
大、小飞机次数
4.1.5.6 设备画像
设备环境风险:设备环境风险,判定设备使用代理、模拟器、修改设备参数等一些特征。
设备行为画像:设备行为信息,反应设备历史行为信息。
设备实名关联:设备实名关联,设备和实名信息关联及验证。
设备应用偏好:设备应用偏好,设备APP安装情况分析。
设备群体欺诈:设备群体欺诈,识别设备是否具有群体欺诈风险。
设备特殊名单:通过设备查询用户及其社交关系是否命中设备特殊名单库的统计评估。
设备采集数据:设备信息采集产品查询设备全局信息,返回给客户通过设备标示查询到的关于设备和用户的信息。
4.2 明确需求
建议:回顾第二节数据应用逻辑关于业务类型、风险类型、风控流程、风险画像等的介绍。
准确性高、稳定性强、吞吐量大、扩展性强
稳定、合规、安全、可靠
4.2.1 场景需求
贷前审核、贷中监控、授信策略等。
产品、周期、件均等。
4.2.2 功能需求
产品类别:通用分数、定制分数,某种画像的评分,或者综合评分
覆盖度;准确性;颗粒度;时效性;无污染性:
数据真实:数据源真实可靠,数据内容未经篡改或加工;
信息准确:数据解析准确,不出现乱码、错位、错值、空值等数据错误;
持续稳定:数据供应稳定、持续,不可出现可引起业务停滞的重大服务中断事故;
覆盖完善:所供数据覆盖范围完整,数据完备程度高,可成业务决策;
更新及时:数据返回时间、数据更新时间符合金融机构业务需求,数据及时有效
4.2.3 合作形式
合作方式;合作周期;价格等。
日调用,月调用,热点量,
计费方式、计算方式,费用
返回结果,评分 额度
4.3 合作对接
调研、采集、接入、加工、分析、决策,完整的工作流的形式去做选择。
4.3.1 相关资质
4.3.1.1 企业安全
企业资质;业务连续性;合规安全性等。
4.3.1.2 数据安全
目前在大数据的应用上依旧会保持着严厉的监管,合规合法是趋势。怎么样的行为属于合规合法的?授权是前提,必须明确写明授权机构和授权使用场景;除此之外,避免接触到敏感信息,通过评分代替直接数据交互。这几个都是核心的关键点。
目前对数据敏感性的处理上,更有联邦学习会对数据建模迭代过程进行加密,比联合建模更能规避数据隐私、合规性等问题。联邦学习虽然目前落地的场景还有待加强,但未来的趋势数据合规肯定是趋势,破除数据孤岛也应该成为必然,
4.3.1.3 形式安全
评分、名单、数据、画像
4.3.2 相关协议
4.3.2.1 保密协议
本次合作数据方面的保密性
4.3.2.2 承诺书
场景的真实性合规性
用户授权的完整性
4.3.2.3 销售协议
4.3.3 相关报价
按查询计费:用户授权登录成功后,有核验结果返回则计费,查有则计费
按查得计费:
按操作计费:数据比对完成并返回结果则计费
按比中计费:
按时间计费:
4.4 离线批量测试
4.4.1 测试样本准备
由甲方根据双方约定准备测试数据。
4.4.1.1 测试数据量
名单类:1k~5k
评分类:5k~2w
标签类:1k~5k
报告类:样例
4.4.1.2 查询主键
一要素:手机号
二要素:手机号、身份证号
三要素:姓名、手机号、身份证号
四要素:姓名、手机号、身份证号、银行卡号
4.4.1.3 回溯时间
测试前通常需要双方根据样本时间和乙方库存支持时间沟通回溯时间需求,目的在于还原用户借款时的数据情况,还可以支持样本分层、分群、分区、分段,从而细化分析。
4.4.1.4 注意事项
数据格式:最好清晰一致,避免出现重复、异常、缺失数据以及格式乱等问题。
数据加密:数据多用md532位小写方式加密,文件多为excel或csv文件格式,文件传输设置密码,只同步部分核心人员。
发送方式:邮件正式发送,且有备份;系统平台导入,较为正式严谨。
4.4.2 乙方数据报告
由乙方根据双方约定开始提取相关数据并进行初步分析。包括数据明细反馈、初步覆盖率,结果分布情况以及一些其他方面的说明和建议。
4.4.2.1 结果反馈
周期:1~3~5个工作日
形式:数据报告
4.4.2.2 报告样例
由乙方给出初步的数据多维度评估,报告内容通常由以下几部分组成:
匹配情况:撞库之后的身份证或者手机号匹配率。
覆盖情况:有效名单、评分、数据覆盖情况。
缺失情况:获取到的数据缺失类别及缺失程度是否严重。
命中情况:名单命中率。
分布情况:名单分类比,评分分布情况。
异常情况:是否有异常数据生成。
4.4.3 甲方测试报告
由甲方根据数据标签匹配结果及数据有效性给予数据测试分析报告。既可以反馈测试结果好坏,也有利于双方在合作上的进一步探讨。报告内容通常由以下几部分组成:测试效果;排序性:区分度:区间区分度;稳定性;区间稳定性:一致性。
4.4.3.1 名单类数据性能验证
混淆矩阵
查得率(Search rate)=查得数/样本量
覆盖率(Cover rate)=查得命中黑名单数/样本中命中黑名单量
误拒率(Error reject rate)=查得命中黑名单数/样本中通过且为Good量
有效差异率(Effective difference rate)=查得命中黑名单数/样本中通过且Bad量
无效差异率(Invalid difference rate)=查得命中黑名单数/样本中其他拒绝量
4.4.3.2 评分类数据性能验证
a)K-S值:Kolmogorov-Smirnov Statistic值,K-S值指的是“好”客户和“坏”客户累计分布比例之间距离的最大值。K-S值重点衡量的是某一个分数点的区分能力。
如下图所示:
K-S值参考范围:
b)ROC曲线:ROC曲线又称接受者操作特性曲线,可以用来评估评分类数据的区分能力,权衡曲线下面的面积(AUC)越大说明评分类数据的区分能力越强。在完全随机选择的情况下AUC=0.5,AUC大于0.5,说明评分类数据选择的效果优于随机选择的效果,一般来说,如果评分类数据的AUC大于0.7则被认为是可以接受的。如下图所示:
图片
c)GINI系数:基尼系数越大说明评分类数据的区分能力越强。GINI系数可以通过如下公式进行转化:
GINI=2*(AUC-0.5)
基尼系数(GINI)参考范围:
d)好/坏比图表
如下表所示,好/坏比图表可以用来验证评分数据的排序性能。即判断好/坏比是不是随着评分的升高而上升的。
好/坏比参考表(示例)
e)区分度:区分度又称分离度。区分度刻画了评分类数据对“好/坏”进行区分的能力,其主要影响因素为“好”客户和“坏”客户分布的分离程度和重叠程度。区分度越高、重叠度越低,评分类数据预测误差越小。
图片
f) PSI群体稳定性指标:PSI群体稳定性指标(population stability index)主要考察的是不同时间评分类数据分布是否发生了变化。当群体稳定性指标显示客群的评分类数据分布发生了较大变化时,需要通过进一步的分析来找出客群发生变化的原因。如下表所示,以2015年群体分数分布为基准计算:
群体稳定性指标计算参考表(示例)
群体稳定性指标计算公式如下:
psi = sum((实际占比-预期占比)/ln(实际占比/预期占比))
基准的选择没有统一的标准,一般来说选择评分类数据性能表现相对较好的时点作为参考基准点。群体稳定性指标(PSI)参考范围:
4.4.3.3 评分类数据应用验证
a)覆盖率
覆盖率是指数据的查得率,主要考察验证机构查询请求客户中有多少比例的客户返回了数据。举例来说,如果验证机构提交了100万客户的数据查询请求,数据服务商返回了80万客户的数据,则数据的覆盖率为80%。
计算不同申请时点的覆盖率,重点观察有没有在特定时点的覆盖率非常低。若有,则需分析是否因放贷机构在该时点授信政策等的变化导致客户群发生变化。在此基础上,计算样本人群的总体覆盖率。一般来说,覆盖率越高,数据在验证机构的可应用性就越强。
覆盖率计算表(示例)
b)贷前应用验证
贷前审批环节对评分数据的应用验证,主要通过将加入评分数据策略后申请通过客户与原审批策略下通过客户进行对比,观察在加入评分数据后能不能提升通过客户风险质量或者扩大通过客户规模。
例如,验证机构计算原有的贷前策略通过率来确定评分数据相应的分数线,使该分数线对应的通过率与原贷前策略通过率保持一致;对比两种不同策略情况下不良率的高低,如果使用评分数据对应的不良率小于使用原策略对应的不良率则说明该评分数据策略优于原策略。也可确定一条分数线使该分数线对应的不良率等于原贷前策略实际不良率,对比两种不同策略情况下通过率的高低。
c)贷后管理应用验证
贷后环节对评分数据的应用主要为风险预警,验证机构可以通过对评分数据的连续跟踪,观察评分数据较低或者短时间内发生显著变化的人群和其表现是否有关系,如果相关性很强,则可尝试利用评分数据作为风险预警的条件。
例如可以统计一个月内分数下降的幅度,对应在未来出现“坏”的比率。如下表示例所示:
d)催收管理应用验证
评分数据在催收管理中应用的验证方法主要为分析评分数据与递延率之间的相关性。验证机构对此应用方式进行验证时,可以首先计算评分数据在不同逾期等级客户上的区分能力。在此基础上计算完成逾期客户的递延率表。
总结:不同的评分数据需要进行的应用验证是要根据评分数据的类型来决定的。从评分类数据适用的实际业务场景出发,挑选场景中合适的样本进行选择性的验证。
4.5 在线接口测试
4.5.1 接入规范
概述
适用范围;调用过程;报文主体;报文内容,报文头;请求,响应
4.5.2 相关文档
4.5.2.1 产品文档
接口类型
异步查询接口
;异步结果反馈接口;查询同步接口;查询记录获取接口;借贷查询接口;借贷共享接口
4.5.2.2 接口文档
包括:调用方式;参数格式;接口详情;报文示例;输出参数;报文示例等。
4.5.3 综合测试
压力测试;异常测试等。
4.5.4 常见问题
无查询权限; 查询失败; 未查询;查无此记录; 不一致; 一致
4.6 生产环境调用
4.6.1 运行监测
调用量;调用异常;统计异常等。
4.6.2 问题汇总
重复调用问题;热点性问题等。