飞速搞定数据分析与处理-day4-pandas入门教程

2023-08-07 13:21:04 浏览数 (1)

背景

这个并不是书籍里的章节,因为书籍中的pandas节奏太快了,基本都是涉及很多中高级的操作,好容易把小伙伴给劝退。我这里先出几期入门的教程,然后再回到书籍里的教程。这几章节作为入门,书籍作为进阶。

Pandas 介绍

什么是 Pandas?

Pandas是一个用于处理数据集的Python库。

它具有分析、清理、探索和操作数据的功能。

为什么要用Pandas?

Pandas让我们能够分析大数据,并根据统计理论得出结论。

Pandas让我们能够分析大数据,并根据统计理论得出结论。

相关数据在数据科学中是非常重要的。

Pandas可以做什么呢?

  • • 两个或多个列之间是否存在关联?
  • • 平均值是多少??
  • • 最大值?
  • • 最小值?

pandas还可以删除不相关的行,或者包含错误的值,如空值或空值。这被称为“清理”数据。

Pandas前置工作

安装Pandas

如果您已经在系统上安装了Python 和 PIP,那么安装Pandas就非常容易了。

代码语言:javascript复制
pip install pandas

导入 Pandas

安装Pandas后,通过添加关键字import将其导入您的应用程序:

代码语言:javascript复制
import pandas

现在,Pandas已经导入,可以使用了。

代码语言:javascript复制
import pandas

mydataset = {
  'cars': ["BMW", "Volvo", "Ford"],
  'passings': [3, 7, 2]
}

myvar = pandas.DataFrame(mydataset)

print(myvar)

Pandas as pd

Pandas通常在pd别名下导入。

查看Pandas 版本

代码语言:javascript复制
import pandas as pd

print(pd.__version__)

Pandas Series

什么是一个Series?

一个 Pandas Series就像表格中的一列。

它是一个一维数组,容纳任何类型的数据。

代码语言:javascript复制
import pandas as pd

a = [1, 7, 2]

myvar = pd.Series(a)

print(myvar)

标签

如果没有指定其他东西,这些值就会用它们的索引号来标记。第一个值有索引0,第二个值有索引1,如此类推。

这个标签可以用来访问一个指定的值。

代码语言:javascript复制
print(myvar[0])

创建标签

通过index参数,你可以命名你自己的标签。

代码语言:javascript复制
import pandas as pd

a = [1, 7, 2]

myvar = pd.Series(a, index = ["x", "y", "z"])

print(myvar)

当你创建了标签,你可以通过参考标签来访问一个项目。

代码语言:javascript复制
print(myvar["y"])

作为系列的键/值对象

在创建一个系列时,你也可以使用一个键/值对象,比如字典。

代码语言:javascript复制
import pandas as pd

calories = {"day1": 420, "day2": 380, "day3": 390}

myvar = pd.Series(calories)

print(myvar)

要想只选择字典中的某些项目,请使用index参数,并只指定你想包括在系列中的项目。

代码语言:javascript复制
import pandas as pd

calories = {"day1": 420, "day2": 380, "day3": 390}

myvar = pd.Series(calories, index = ["day1", "day2"])

print(myvar)

Pandas DataFrames

什么是DataFrame?

Pandas DataFrame是一个二维的数据结构,就像一个二维数组,或者一个有行和列的表格。

代码语言:javascript复制
import pandas as pd

data = {
  "calories": [420, 380, 390],
  "duration": [50, 40, 45]
}

#load data into a DataFrame object:
df = pd.DataFrame(data)

print(df)

calories duration 0 420 50 1 380 40 2 390 45

定位行

从上面的结果可以看出,DataFrame就像一个有行和列的表格。

Pandas使用loc属性来返回一个或多个指定的行。

代码语言:javascript复制
#refer to the row index:
print(df.loc[0])

Note: 这个例子返回一个Pandas 系列

代码语言:javascript复制
#use a list of indexes:
print(df.loc[[0, 1]])

Note: 当使用"[]"时,结果是一个Pandas DataFrame

命名的索引

通过index参数,你可以命名你自己的索引。

代码语言:javascript复制
import pandas as pd

data = {
  "calories": [420, 380, 390],
  "duration": [50, 40, 45]
}

df = pd.DataFrame(data, index = ["day1", "day2", "day3"])

print(df) 

calories duration day1 420 50 day2 380 40 day3 390 45

定位命名的索引

使用loc属性中指定的索引来返回指定的行。

代码语言:javascript复制
#refer to the named index:
print(df.loc["day2"])

calories 380 duration 40 Name: 0, dtype: int64

将文件加载到数据框中

如果你的数据集存储在一个文件中,Pandas可以将它们加载到一个DataFrame中。

代码语言:javascript复制
import pandas as pd

df = pd.read_csv('data.csv')

print(df) 

0 人点赞