python数据分析之处理excel

2023-10-30 17:44:43 浏览数 (1)

上次给大家分享了数据分析中要用的anaconda以及一些模块的安装和导入,至于具体如何使用python处理excel还有点模糊,今天就来研究一下如何使用,提高工作效率。

首先引入import pandas as pd ,这个as就是为了方便少打点字起的别名,pd就是代表pandas,import numpy as np,import matplotlib as plt,这里的np、plt都是别名。

(1)数据结构Series

Series就是一维数组,由一组数据和与之相关的索引组成,如何创建呢?如图所示

这里使用的方法是Series(),传入不同对象就可以实现,默认索引从0开始,也可以指定索引

(2)数据结构DataFrame

Series是一组数据和一组索引组成,DataFrame就是一组数据和一对索引组成,怎么创建呢?如图

这是传入一个单一列表,行和列都是从0开始,再传入一个多列数据,如图

如何获取行列索引呢,利用colums方法获取列索引,利用index方法获取行索引,如图

有三行两列

现在excel文件格式基本都是xlsx结尾,python如何读取呢,利用read_excel()方法

如图

注意:这里读取地址的时候windows默认是users反斜杠,需要前面加一个r转义符,不然无法读取。

读取的时候一般默认是读取第一个Sheet,从0计数,如图读取Sheet2

有时候文件列数特别多,我们只需要其中几列得到话,怎么办呢,这里就用一个usecols参数指定要取得列,如图所示,useclos = 默认索引或者自定义索引

(1)空值处理

有些行某些列数据格是空的,就用方法dropna()删除这一行,但如果只想删除全空值得行,就可以加一个参数how = all即可,如图所示

(2)重复值处理

重复数据集有多条,这样就可以使用python中drop_duplicates()方法进行重复值判断并删除,默认保留第一行值,如图所示

(3)数据类型转化

pandas中的数据主要有int、float、object、string_、unicode、datetime64[ns],可以使用dtype方法获取某一列数据类型,如图hah列为float类型

如果想转换为整型怎么设置呢,这里使用astype方法转换目标类型即可

到这里,对于python数据分析中如何使用pandas模块处理excel表格,应该有一个大致的了解了,马上去实践吧,祝学习顺利!

END

作者|希里安

0 人点赞