数据清理的最全指南

2019-04-19 14:23:11 浏览数 (1)

清理和理解数据对结果的质量都会有很大影响。

目录

· 数据质量(合法性,准确性,完整性,一致性)

· 工作流程(检查,清洁,验证,报告)

· 检查(数据分析,可视化,软件包)

· 清理(无关数据,重复数据,类型转换,语法错误)

· 验证

· 总结

数据质量

合法性:数据符合定义的业务规则或约束的程度。

准确性:数据接近真实值的程度。

完整性:所有必需数据的已知程度。

一致性:数据在同一数据集内或跨多个数据集的一致程度。

具体判定标准检测方法见全文:

https://www.toutiao.com/i6670031809427800587/

工作流程

1.检查:检测不正确和不一致的数据。

2.清洁:修复或删除发现的异常。

3.验证:清洁后,检查结果以验证是否正确。

4.报告:记录所做更改和当前存储数据质量的报告。

清理

数据清理涉及基于问题和数据类型的不同技术。可以应用不同的方法,每种方法都有自己的权衡。总的来说,不正确的数据被删除,纠正或估算。

不相关的数据:

不相关的数据是那些实际上不需要的数据,并且不适合我们试图解决的问题。

重复项:

重复项是数据集中重复的数据点。

类型转换:

确保将数字存储为数字数据类型,日期应存储为日期对象,或Unix时间戳(秒数),依此类推。如果需要,可以将分类值转换为数字和从数字转换。

需要注意的是,无法转换为指定类型的值应转换为NA值(或任何值),并显示警告。这表示值不正确,必须修复。

语法错误:

见全文。

验证

完成后,应通过重新检查数据并确保其规则和约束确实存在来验证正确性。

0 人点赞