特征工程-个人信用评估

2018-09-10 11:10:27 浏览数 (1)

可以用于形成特征矩阵的共有5个表: 1.用户基本属性表 2.银行流水记录表 3.用户浏览行为表 4.信用卡账单记录表 5.放款时间信息表

1.用户基本属性表

字段

注释

1

用户id

整数

2

性别

枚举值(0表示性别未知)

3

职业

枚举值

4

教育程度

枚举值

5

婚姻状况

枚举值

6

户口类型

枚举值

1.职业做One-Hot编码 2.教育程度做One-Hot编码 3.婚姻状况做One-Hot编码 4.户口类型做One-Hot编码

2.银行流水记录表

字段

注释

1

用户id

整型

2

时间戳

整型(0表示未知)

3

交易类型

枚举值(1表示收入,0表示支出)

4

交易金额

浮点型

5

工资收入标记

枚举值(1表示工资收入)

1.时间戳按星期分箱 2.时间戳按月分箱 3.时间戳是否工作日 4.工资收入标记做One-Hot编码 5.交易类型与交易金额做正负数值交易金额字段

3.用户浏览行为表

字段

注释

1

用户id

整型

2

时间戳

整数(0表示未知)

3

浏览行为数据

整型

4

浏览子行为编号

枚举型

1.时间戳按星期分箱 2.时间戳按月分箱 3.时间戳是否工作日 4.浏览子行为做One-Hot编码 5.浏览子行为做统计计数

4.信用卡账单记录表

字段

注释

1

用户id

整型

2

账单时间戳

整数(0表示未知)

3

银行id

枚举型

4

上期账单金额

浮点型

5

上期还款金额

浮点型

6

信用卡额度

浮点型

7

本期账单余额

浮点型

8

本期账单最低还款额

浮点型

9

消费笔数

整数

10

本期账单金额

浮点型

11

调整金额

浮点型

12

循环利息

浮点型

13

可用金额

浮点型

14

预借现金额度

浮点型

15

还款状态

枚举值

1.账单时间戳按星期分箱 2.账单时间戳按月分箱 3.账单时间戳是否工作日 4.银行id做One-Hot编码 5.信用卡额度是否低于某个值 6.上期还款金额是否低于某个值 7.上期账单金额是否高于某个值 8.本期账单余额是否高于某个值 9.本期最低还款额是否高于某个值 10.消费笔数是否高于某个值 11.本期账单金额是否高于某个值 12.循环利息是否高于某个值 13.可用金额是否高于某个值 14.预借现金额度是否高于某个值 15.还款状态做One-Hot编码 16.信用卡计数 17.每个用户在不同银行的每张信用卡信用额度的聚合计算,包括最大值、最小值、均值和标准差。

5.放款时间表

字段

注释

1

用户id

整型

2

放款时间

整数

1 放款时间按星期分箱 2 放款时间按月分箱 3 放款时间是否工作日 4.放款时间期间是否有银行账单或者信用账单突变

6.总结

特征工程.png

特征工程中的大部分特征可以分为2类: 1.基于时间窗口对连续变量做统计特征,这是特征工程中常用的方法,尤其是对于一个用户对应多条记录的数据表。第一,通过这些统计特征可以提取出用户在某个变量上大致的分布情况;第二,这为特征工程带来大量细分化且包含信息量大的特诊。 2.每个用户在特殊时间点的具体特征值,这些时间点包括最初、最终以及贷款前后,这些时间点所包含的信息量比一般时间点要大,与预测目标值的关联程度也更大。

0 人点赞