背景
这个并不是书籍里的章节,因为书籍中的pandas节奏太快了,基本都是涉及很多中高级的操作,好容易把小伙伴给劝退。我这里先出几期入门的教程,然后再回到书籍里的教程。这几章节作为入门,书籍作为进阶。
Pandas 介绍
什么是 Pandas?
Pandas是一个用于处理数据集的Python库。
它具有分析、清理、探索和操作数据的功能。
为什么要用Pandas?
Pandas让我们能够分析大数据,并根据统计理论得出结论。
Pandas让我们能够分析大数据,并根据统计理论得出结论。
相关数据在数据科学中是非常重要的。
Pandas可以做什么呢?
- • 两个或多个列之间是否存在关联?
- • 平均值是多少??
- • 最大值?
- • 最小值?
pandas还可以删除不相关的行,或者包含错误的值,如空值或空值。这被称为“清理”数据。
Pandas前置工作
安装Pandas
如果您已经在系统上安装了Python 和 PIP,那么安装Pandas就非常容易了。
代码语言:javascript复制pip install pandas
导入 Pandas
安装Pandas后,通过添加关键字import
将其导入您的应用程序:
import pandas
现在,Pandas已经导入,可以使用了。
代码语言:javascript复制import pandas
mydataset = {
'cars': ["BMW", "Volvo", "Ford"],
'passings': [3, 7, 2]
}
myvar = pandas.DataFrame(mydataset)
print(myvar)
Pandas as pd
Pandas通常在pd
别名下导入。
查看Pandas 版本
代码语言:javascript复制import pandas as pd
print(pd.__version__)
Pandas Series
什么是一个Series?
一个 Pandas Series就像表格中的一列。
它是一个一维数组,容纳任何类型的数据。
代码语言:javascript复制import pandas as pd
a = [1, 7, 2]
myvar = pd.Series(a)
print(myvar)
标签
如果没有指定其他东西,这些值就会用它们的索引号来标记。第一个值有索引0,第二个值有索引1,如此类推。
这个标签可以用来访问一个指定的值。
代码语言:javascript复制print(myvar[0])
创建标签
通过index
参数,你可以命名你自己的标签。
import pandas as pd
a = [1, 7, 2]
myvar = pd.Series(a, index = ["x", "y", "z"])
print(myvar)
当你创建了标签,你可以通过参考标签来访问一个项目。
代码语言:javascript复制print(myvar["y"])
作为系列的键/值对象
在创建一个系列时,你也可以使用一个键/值对象,比如字典。
代码语言:javascript复制import pandas as pd
calories = {"day1": 420, "day2": 380, "day3": 390}
myvar = pd.Series(calories)
print(myvar)
要想只选择字典中的某些项目,请使用index
参数,并只指定你想包括在系列中的项目。
import pandas as pd
calories = {"day1": 420, "day2": 380, "day3": 390}
myvar = pd.Series(calories, index = ["day1", "day2"])
print(myvar)
Pandas DataFrames
什么是DataFrame?
Pandas DataFrame是一个二维的数据结构,就像一个二维数组,或者一个有行和列的表格。
代码语言:javascript复制import pandas as pd
data = {
"calories": [420, 380, 390],
"duration": [50, 40, 45]
}
#load data into a DataFrame object:
df = pd.DataFrame(data)
print(df)
calories duration
0
420
50
1
380
40
2
390
45
定位行
从上面的结果可以看出,DataFrame就像一个有行和列的表格。
Pandas使用loc
属性来返回一个或多个指定的行。
#refer to the row index:
print(df.loc[0])
代码语言:javascript复制Note: 这个例子返回一个Pandas 系列。
#use a list of indexes:
print(df.loc[[0, 1]])
Note: 当使用"[]"时,结果是一个Pandas DataFrame。
命名的索引
通过index
参数,你可以命名你自己的索引。
import pandas as pd
data = {
"calories": [420, 380, 390],
"duration": [50, 40, 45]
}
df = pd.DataFrame(data, index = ["day1", "day2", "day3"])
print(df)
calories duration
day1 420
50
day2 380
40
day3 390
45
定位命名的索引
使用loc
属性中指定的索引来返回指定的行。
#refer to the named index:
print(df.loc["day2"])
calories 380
duration 40
Name:
0, dtype: int64
将文件加载到数据框中
如果你的数据集存储在一个文件中,Pandas可以将它们加载到一个DataFrame中。
代码语言:javascript复制import pandas as pd
df = pd.read_csv('data.csv')
print(df)