一直以来咱们都是拿Power BI说事,但大部分内容都是DAX基础,可视化元素应用,分析模型等为主。对新手来说,这些还存在一定门槛。
大家知道,做数据分析,都要历经数据清洗,建模,可视化这三步,我们今天要说的,就是数据清洗之前的那些事儿
要做数据清洗,首先必须要有数据 工作中的数据来自两个地方
- 已有的系统(ERP/CRM/考勤/收银等)中导出的数据
- Excel里手工输入的数据
系统导出的数据规范整洁,清洗过程简洁轻松
手工数据五花八门,清洗过程痛不欲生
这里总结了关于数据录入的四条规则
只要遵守规则,后续数据清洗就没问题
数据录入的四条规则
规则一:一个表单(sheet)里,只存放一张表格
这似乎是一句正确的废话,起初我也以为这应该是制表共识,不需要解释,直到有一天我看到这样一张Excel表单
面对如此版面,我曾百思不得骑姐——不便于打印,汇总无从下手。每次打开文件,找到需要操作的小表格,都要耗费大量时间,因为这张表同时几个人在用…
至于该怎么改,参见规则一内容,我怕说多了血压会升高
规则二:一个单元格只对应一种数据属性
看下图(姓名电话均为随机生成),觉得有什么问题吗
很多微商或小门店在微信上接单,都是这样在纸质小本子上手写的。除了记录方便,真的没有一点优势。每天收摊结账后,低头眯眼,拿着计算器一通摁……拜托,你以为还是上世纪?
即便把上面这张单子输入EXCEL,区别也不大,想知道当天做了多少金额,还是离不开计算器。有人不服气了“EXCEL不是有汇总函数吗?”那你告诉我,上面这张单子,三列数据汇总哪个?
重复规则二:一个单元格只对应一种数据属性
比如上图第二列,要想输入Excel,就该拆成三列:物品、数量、单位,如果再加上单价,汇总金额自然是唾手可得
其实,早在电脑办公普及之前,前辈们就已经有现成模板给我们参考了。看到这些质朴的纸质单据,是不是很亲切
规则三:相同数据填写要完全一致
此规则适用于多人制表,典型表现就是地名,见下图
单人制表不存在这个问题,因为同一个地名不会出现几种叫法。多人制表则不然,例如N个销售员,在记录各自订单时,对同一个地名,甚至项目名称,都会有不同称呼,日后做汇总,必定增加额外工作量,在数据清洗上浪费时间精力
如何解决?
还记得我们在手机或网站上注册时,省市信息是如何确定的吗。是界面自动跳出省市区县列表让我们选择,而不是手动输入,这样就避免了人为误差。在Excel里就是进行”数据有效性”(EXCEL 2013以下版本)设置或”数据验证”(EXCEL 2013以上版本)。相关细节请自行百度,网络教程汗牛充栋
规则四:选择合适的数据类型
大家经常会遇到数字无法参与计算,日期无法提取年月日这种情况,如下图
▲数据类型是文本,即便输入数字也无法参与计算 绿色小三角是其特殊标志
▲只有“-”和“/”符号才能被自动识别为日期类型 大家习以为常的小数点分隔,并不能被视为日期,因此无法利用函数提取信息
碰到文本数字列,如何批量更正?
利用“数据”——“分列”功能即可。选中该列,点击“分列”,一路下一步到底就行