这是我的第56篇原创文章,关于PDFMV框架。
阅读完本,你可以知道:
1 PDFMV框架的D是什么
PDFMV框架是“问题-数据-特征-模型-价值”英文字母的缩写,是一个闭环的系统,具有持续性迭代优化的功能。
PDFMV框架的D是“Data”的缩写,表示“数据”。关于D的认知,如下图所示:
我们从数据中学习,获得洞见,以创造价值。这个数据,可以是小数据,也可以是大数据;可以是结构化的数据,也可以是非结构化的数据;可以是表格数据,也可以是图像、声音、视频数据;可以是离线数据,也可是在线数据。等等。
PDFMV框架的D环节,我们重点关注三方面的事情:
1 数据加载,获取与业务问题相关的数据集,以开启我们的数据工作。
2 数据探索,识别数据通用问题。
3 数据管理,处理数据中的问题集。
1
数据加载
数据加载,如下图
2
数据探索
数据探索,包括数据汇总和数据可视化。
数据汇总,如下图:
数据可视化,如下图:
3
数据管理
数据管理,主要有数据清洗,数据转换和数据划分。
如下图:
温馨提示:
- 从不修改原始数据文件,总是在数据的副本上工作。
- 垃圾输入,垃圾输出,数据质量至关重要。
- 不同的业务问题有着不同的数据留痕。
- 为了用好数据,先要理解数据,做好数据画像工作。
关于PDFMV框架的D,您有什么想法请留言。