清理和理解数据对结果的质量都会有很大影响。
目录
· 数据质量(合法性,准确性,完整性,一致性)
· 工作流程(检查,清洁,验证,报告)
· 检查(数据分析,可视化,软件包)
· 清理(无关数据,重复数据,类型转换,语法错误)
· 验证
· 总结
数据质量
合法性:数据符合定义的业务规则或约束的程度。
准确性:数据接近真实值的程度。
完整性:所有必需数据的已知程度。
一致性:数据在同一数据集内或跨多个数据集的一致程度。
具体判定标准检测方法见全文:
https://www.toutiao.com/i6670031809427800587/
工作流程
1.检查:检测不正确和不一致的数据。
2.清洁:修复或删除发现的异常。
3.验证:清洁后,检查结果以验证是否正确。
4.报告:记录所做更改和当前存储数据质量的报告。
清理
数据清理涉及基于问题和数据类型的不同技术。可以应用不同的方法,每种方法都有自己的权衡。总的来说,不正确的数据被删除,纠正或估算。
不相关的数据:
不相关的数据是那些实际上不需要的数据,并且不适合我们试图解决的问题。
重复项:
重复项是数据集中重复的数据点。
类型转换:
确保将数字存储为数字数据类型,日期应存储为日期对象,或Unix时间戳(秒数),依此类推。如果需要,可以将分类值转换为数字和从数字转换。
需要注意的是,无法转换为指定类型的值应转换为NA值(或任何值),并显示警告。这表示值不正确,必须修复。
语法错误:
见全文。
验证
完成后,应通过重新检查数据并确保其规则和约束确实存在来验证正确性。