Pandas学习笔记03-数据清洗(通过索引选择数据)

2021-08-05 11:19:21 浏览数 (2)

今天我们就在jupyterlab里进行操作演示,本次推文内容主要以截图为主了。 有兴趣的可以公众号回复 "索引" 获取 演示原数据及 ipynb文件。 数据清洗中,我们经常需要从原始数据中通行列索引规则选择需要用于后续处理分析的数据,这便是本次的主要内容。

数据清洗(通过索引选择数据)

1.索引设置

我们在使用pandas读取文件数据时,可以设定初始的索引。 这里我用之前 爬取过的 拉勾网产品经理岗位数据进行演示如下:

读取数据时指定索引

1.1.reindex

reindex方法可以重新进行索引排序,如果某个索引值之前不存在则会引入缺失值。

reindex重新进行索引排序

1.2.set_index

set_index就是将某列设置为索引

set_index设置索引列

1.3.reset_index

reset_index就是重置索引(变为默认的索引 0到len()-1),比如可以把上面set_index设置的索引取消,,经常用在对数据进行处理(分组或透视处理)后

reset_index重置索引

1.4.rename

rename可以将行列索引标签名进行替换,用字典的形式

在这里插入图片描述

2.索引选择

2.1. iloc 整数标签

df数据

2.1.1. 行索引

行索引

2.1.2. 列索引

列索引

2.1.3. 混合索引

混合索引

2.2. loc 轴标签
2.2.1.行索引

行索引

2.2.2.列索引

列索引

2.2.3.混合索引

混合索引

2.2.4.函数式索引

函数式索引

2.3. []操作符方法

df[val]主要是选取某列或某些列序列,当然我们也可以通过切片形式选取行(这里是整数索引切片形式)

2.3.1.行索引

行索引

2.3.2.列索引

列索引

2.3.3.混合索引与函数式索引

混合索引与函数式索引

2.3.4.布尔索引

布尔索引可以理解为条件判断,根据条件判断选择满足的数据,是我们在数据清洗中最常见的手段之一。 布尔符号:'&','|','~':分别代表和and,或or,取反not 单条件、且与或

布尔索引 取反、contains与isin

布尔索引

3.删除重复数据

duplicated方法 返回 是否重复的布尔列表

查看原始数据重复值情况drop_duplicates方法删除重复数据,保留一条(可选第一条或最后一条) keep = 'last' 保留最后一条 keep = 'first' 保留第一条

删除重复值

4.思考题

采取至少2种以上获取偶数行的方式

0 人点赞