以下文章来源于数据思践 ,作者王路情
这是我的第54篇原创文章,关于PDFMV框架。
阅读完本,你可以知道:
1 PDFMV框架的P是什么
PDFMV框架是“问题-数据-特征-模型-价值”英文字母的缩写,是一个闭环的系统,具有持续性迭代优化的功能。
PDFMV框架的P是“Problem”的缩写,表示“问题”。关于P的认知,如下图所示:
1
Why-Problem
对于问题,我们首先要问“为什么”。
- 为什么要提出这个问题?
- 为什么要研究这个问题?
- 为什么要解决这个问题?
我们可以从问题的价值性来看待“Why-Problem”。我们可以进一步探讨:
- 问题有价值和意义吗?
- 问题的价值可以量化吗?
- 问题的受益者是谁?
- 问题的风险和回报分析是什么?
总体原则,我们是在有价值的问题导向下开启数据科学项目。
2
What-Problem
我们清楚问题为什么后,是时候考虑“What-Problem”了,简称为“问题的定义”。
关于问题的定义,我们需要:
1 具体化,问题描述越具体,说明对问题理解越透彻,意味着能够更有效地解决问题。
2 合理化,我们要清楚所提出问题的基准线是什么,期望值是什么,所出背景和现状是什么,立足当下,实现增进。
3 数字化,问题所涉及的关键指标采用数字量化。
3
How-Problem
我们怎么解决好问题,这是“How-Problem”需要回答的。
我们要做问题细化的工作,直到问题不能再分解。我把它称之为“分解的哲学”。老子说,“天下难事必作于易,天下大事必作于细。是以圣人终不为大,故能成其大。”
面对任何要解答的问题,我们首要是做好充分细化后,就可以采用敏捷开发的模式和迭代优化的方式来快速响应问题和高效破解问题。
4
举例说明
智慧金融领域的用户申请评分
1 Why-Problem
用户申请评分通过一个分数量化用户的违约风险概率,帮助做风险控制,提升信贷效率,显然这个问题是有价值的,解决好这个问题也是必要的。
2 What-Problem
对一款信贷产品的申请用户,进行信用评分,信用评分的可靠性指标KS不少于30%,稳定性指标PSI不超过0.05。
3 How-Problem
解决好这个问题,我们要做这些细化工作。
第一步:用户群的锁定,目标标签的界定,样例的收集
第二步:数据的探索和分析,变量的分箱,特征的选择
第三步:模型的构建和评价
第四步:违约概率到分数刻度的转换
做好细化工作后,我们选择合适的工具,就可以去解答这个问题了。在解答的过程中,我们采用敏捷开发的模式和迭代优化的方式,以让这个评分更加可靠和稳定。
关于PDFMV框架的P,您有什么疑问或者想法请留言。