使用Python处理数据—利用pandas库 Python是一门强大的语言,无论是在Web开发、自动化运维、数据挖掘、人工智能等领域都有广泛的应用。那么在处理数据方面,Python也有自己独特的优势,比如有一个强大的库叫做pandas。
pandas是基于NumPy 的一个开源库,该库为了解决数据分析任务而创建。Pandas 纳入了大量库和一些标准的数据模型,提供了高效地操作大型数据集所需的工具。pandas提供了大量能使我们快速便捷地处理数据的函数和方法。
pandas主要有两个数据结构Series和DataFrame。
Series:一维数组,与普通数组类似,可以通过索引访问数据,访问方式和字典相似,通过key-value的形式。
DataFrame:二维数组,类似于表格,可以通过索引访问数据,列之间可以有不同的数据类型。
pandas常用功能:
数据导入导出 数据清洗 数据转换 数据统计 数据可视化
使用pandas处理数据首先需要导入pandas库,然后使用read_csv()读取数据,如下所示:
import pandas as pd
读取数据 data = pd.read_csv('test.csv')
查看数据 data.head()
读取数据 data = pd.read_csv('test.csv')
查看数据 data.head()
id name score 0 1 Tom 90 1 2 Jack 80 2 3 Rose 70 3 4 Jane 60 4 5 Smith 50
如果数据中有列名,read_csv()会将数据的第一行作为列名,如果数据没有列名,可以通过header=None来指定,如下所示:
读取数据 data = pd.