PDFMV框架的D

2020-02-19 12:20:29 浏览数 (1)

这是我的第56篇原创文章,关于PDFMV框架。

阅读完本,你可以知道:

1 PDFMV框架的D是什么

PDFMV框架是“问题-数据-特征-模型-价值”英文字母的缩写,是一个闭环的系统,具有持续性迭代优化的功能。

PDFMV框架的D是“Data”的缩写,表示“数据”。关于D的认知,如下图所示:

我们从数据中学习,获得洞见,以创造价值。这个数据,可以是小数据,也可以是大数据;可以是结构化的数据,也可以是非结构化的数据;可以是表格数据,也可以是图像、声音、视频数据;可以是离线数据,也可是在线数据。等等。

PDFMV框架的D环节,我们重点关注三方面的事情:

1 数据加载,获取与业务问题相关的数据集,以开启我们的数据工作。

2 数据探索,识别数据通用问题。

3 数据管理,处理数据中的问题集。

1

数据加载

数据加载,如下图

2

数据探索

数据探索,包括数据汇总和数据可视化。

数据汇总,如下图:

数据可视化,如下图:

3

数据管理

数据管理,主要有数据清洗,数据转换和数据划分。

如下图:

温馨提示:

  • 从不修改原始数据文件,总是在数据的副本上工作。
  • 垃圾输入,垃圾输出,数据质量至关重要。
  • 不同的业务问题有着不同的数据留痕。
  • 为了用好数据,先要理解数据,做好数据画像工作。

关于PDFMV框架的D,您有什么想法请留言。

0 人点赞