前言
数据清洗很重要,本文演示如何使用 Python Pandas 来查找和丢弃 DataFrame 中列值唯一的列,简言之,就是某列的数值除空值外,全都是一样的,比如:全0,全1,或者全部都是一样的字符串如:已支付,已支付,已支付…
这些列大多形同虚设,所以当数据集列很多而导致人眼难以查找时,这个方法尤为好用。
上代码前先上个坑吧,数据列中的空值 NaN 也会被 Pandas 认为是一种 “ 值 ”,如下图:
所以只要把列的缺失值先丢弃,再统计该列的唯一值的个数即可。
代码实现
数据读入
检测列值唯一的所有列并丢弃
最后总结一下,Pandas 在数据清洗方面有非常多实用的操作,很多时候我们想不到只是因为没有接触过类似的案例或者不知道怎么转换语言描述,比如 “ 列值唯一 ” --> “ 除了空值以外的唯一值的个数等于1 ” ,许多坑笔者都已经踩过了,欢迎查看我的其余文章,提建议,共同进步。
我们下个操作见~