Pandas中的10种索引

2022-03-20 22:05:27 浏览数 (2)

作者:Peter 编辑:Peter

大家好,我是Peter~

今天给大家一片关于Pandas的基本文章:9种你必须掌握的Pandas索引

索引在我们的日常生活中其实是很常见的,就像:

  • 一本书有自己的目录和具体的章节,当我们想找某个知识点,翻到对应的章节即可;
  • 也像图书馆中的书籍被分类成文史类、技术类、小说类等,再加上书籍的编号,很快就能够找到我们想要的书籍。
  • 外出吃饭点菜的菜单,从主食类、饮料/汤类、凉菜类等,到具体的菜名等

上面不同的常用都可以看做是一个具体的索引应用。

因此,基于实际需求出发创建的索引对我们的业务工作具有很强的指导意义。在Pandas中创建合适的索引则能够方便我们的数据处理工作。

<!--MORE-->

官网学习地址:https://pandas.pydata.org/docs/reference/api/pandas.Index.html

下面通过实际案例来介绍Pandas中常见的10种索引,以及如何创建它们。

pd.Index

Index是Pandas中的常见索引函数,通过它能够构建各种类型的索引,其语法为:

代码语言:python代码运行次数:0复制
pandas.Index(
  data=None, # 一维数组或者类似数组结构的数据
  dtype=None,  # NumPy数据类型(默认值:对象)
  copy=False,  # 是否生成副本
  name=None, #  索引名字
  tupleize_cols=True,  # 如果为True,则尽可能尝试创建 MultiIndex
  **kwargs
)

导入两个必需的库:

代码语言:txt复制
import pandas as pd
import numpy as np

默认的数据类型是int64

In 2:

代码语言:txt复制
# 通过列表来创建
pd.Index([1,2,3,4])

Out2:

代码语言:txt复制
Int64Index([1, 2, 3, 4], dtype='int64')

在创建的时候,还能够直接指定数据类型:

In 3:

代码语言:txt复制
# 指定索引的数据类型
pd.Index([1,2,3,4], dtype="float64")

Out3:

代码语言:txt复制
Float64Index([1.0, 2.0, 3.0, 4.0], dtype='float64')

在创建的时候指定名称name和数据类型dtype:

In 4:

代码语言:txt复制
# 指定类型和名称
pd.Index([1,2,3,4], 
         dtype="float64",
         name="Peter")

Out4:

代码语言:txt复制
Float64Index([1.0, 2.0, 3.0, 4.0], dtype='float64', name='Peter')

In 5:

代码语言:txt复制
# 使用list函数生成列表来创建
pd.Index(list("ABCD"))

Out5:

代码语言:txt复制
Index(['A', 'B', 'C', 'D'], dtype='object')

使用元组来进行创建:

In 6:

代码语言:txt复制
# 使用元组来创建
pd.Index(("a","b","c","d"))

Out6:

代码语言:txt复制
Index(['a', 'b', 'c', 'd'], dtype='object')

使用集合来进行创建。集合本身是无序的,所以最终的结果并不一定是按照给定的元素顺序:

In 7:

代码语言:txt复制
# 使用集合来创建,集合本身是无序的
pd.Index({"x","y","z"})

Out7:

代码语言:txt复制
Index(['z', 'x', 'y'], dtype='object')

pd.RangeIndex

生成一个区间内的索引,主要是基于Python的range函数,其语法为:

代码语言:python代码运行次数:0复制
pandas.RangeIndex(
  start=None,  # 起始值,默认为0
  stop=None,  # 终止值
  step=None,  # 步长,默认为1
  dtype=None,  # 类型
  copy=False,  # 是否生成副本
  name=None)  # 名称

下面通过多个例子来讲解:

In 8:

代码语言:txt复制
pd.RangeIndex(8)  # 默认start是0,步长是1

默认结果中起始值是0,结束值是8(不包含),步长是1:

Out8:

代码语言:txt复制
RangeIndex(start=0, stop=8, step=1)

In 9:

代码语言:txt复制
pd.RangeIndex(0,8)  # 指定start和stop

Out9:

代码语言:txt复制
RangeIndex(start=0, stop=8, step=1)

改变步长为2:

In 10:

代码语言:txt复制
pd.RangeIndex(0,8,2)

Out10:

代码语言:txt复制
RangeIndex(start=0, stop=8, step=2)

In 11:

代码语言:txt复制
list(pd.RangeIndex(0,8,2))

将结果用list显示出来,没有包含stop的值8:

Out11:

代码语言:txt复制
[0, 2, 4, 6]

下面的案例中将步长改成-1:

In 12:

代码语言:txt复制
pd.RangeIndex(8,0,-1)

Out12:

代码语言:txt复制
RangeIndex(start=8, stop=0, step=-1)

In 13:

代码语言:txt复制
list(pd.RangeIndex(8,0,-1))

Out13:

代码语言:txt复制
[8, 7, 6, 5, 4, 3, 2, 1]  # 结果中不包含0

pd.Int64Index

指定数据类型是int64整型

代码语言:python代码运行次数:0复制
pandas.Int64Index(
  data=None,  # 生成索引的数据
  dtype=None,  # 索引类型,默认是int64
  copy=False,  # 是否生成副本
  name=None)  # 使用名称

In 14:

代码语言:txt复制
pd.Int64Index([1,2,3,4])

Out14:

代码语言:txt复制
Int64Index([1, 2, 3, 4], dtype='int64')

In 15:

代码语言:txt复制
pd.Int64Index([1,2.0,3,4])  # 强制转成int64类型

Out15:

代码语言:txt复制
Int64Index([1, 2, 3, 4], dtype='int64')

In 16:

代码语言:txt复制
pd.Int64Index([1,2,3,4],name="Peter")

Out16:

代码语言:txt复制
Int64Index([1, 2, 3, 4], dtype='int64', name='Peter')

如果在数据中包含小数则会报错:

In 17:

代码语言:txt复制
# pd.Int64Index([1,2,3,4.4])  # 出现小数则报错 

pd.UInt64Index

数据类型是无符号的UInt64

代码语言:python代码运行次数:0复制
pandas.UInt64Index(
  data=None, 
  dtype=None, 
  copy=False, 
  name=None
)

In 18:

代码语言:txt复制
pd.UInt64Index([1, 2, 3, 4])

Out18:

代码语言:txt复制
UInt64Index([1, 2, 3, 4], dtype='uint64')

In 19:

代码语言:txt复制
pd.UInt64Index([1, 2, 3, 4],name="Tom")  # 指定名字

Out19:

代码语言:txt复制
UInt64Index([1, 2, 3, 4], dtype='uint64', name='Tom')

In 20:

代码语言:txt复制
pd.UInt64Index([1, 2.0, 3, 4],name="Tom")

Out20:

代码语言:txt复制
UInt64Index([1, 2, 3, 4], dtype='uint64', name='Tom')
代码语言:txt复制
# 存在小数则报错
pd.UInt64Index([1, 2.4, 3, 4],name="Tom")

pd.Float64Index

数据类型是Float64位的浮点型,允许小数出现:

代码语言:python代码运行次数:0复制
pandas.Float64Index(
  data=None,  # 数据
  dtype=None,  # 类型
  copy=False,  # 是否生成副本
  name=None  # 索引名字
)

In 22:

代码语言:txt复制
pd.Float64Index([1, 2, 3, 4])

Out22:

代码语言:txt复制
Float64Index([1.0, 2.0, 3.0, 4.0], dtype='float64')

In 23:

代码语言:txt复制
pd.Float64Index([1.5, 2.4, 3.7, 4.9])

Out23:

代码语言:txt复制
Float64Index([1.5, 2.4, 3.7, 4.9], dtype='float64')

In 24:

代码语言:txt复制
pd.Float64Index([1.5, 2.4, 3.7, 4.9],name="peter")

Out24:

代码语言:txt复制
Float64Index([1.5, 2.4, 3.7, 4.9], dtype='float64', name='peter')

注意:在Pandas1.4.0的版本中,上面3个函数全部统一成了pd.NumericIndex方法

pd.IntervalIndex

代码语言:python代码运行次数:0复制
pd.IntervalIndex(
  data,  # 待生成索引的数据(一维)
  closed=None,  # 区间的哪边是关闭状态,{‘left’, ‘right’, ‘both’, ‘neither’}, default ‘right’
  dtype=None,  # 数据类型
  copy=False,  #  生成副本
  name=None,  # 索引的名字
  verify_integrity=True  # 判断是否符合
)

新的 IntervalIndex 通常使用interval_range()函数来进行构造,基本用法:

In 24:

代码语言:txt复制
pd.interval_range(start=0, end=6)

Out24:

代码语言:txt复制
IntervalIndex([(0, 1], (1, 2], (2, 3], (3, 4], (4, 5], (5, 6]],
              closed='right',  # 默认情况下右边是关闭的
              dtype='interval[int64]')

In 25:

代码语言:txt复制
pd.interval_range(start=0, end=6, closed="neither")  # 两边都不关闭

Out25:

代码语言:txt复制
IntervalIndex([(0, 1), (1, 2), (2, 3), (3, 4), (4, 5), (5, 6)],
              closed='neither',
              dtype='interval[int64]')

In 26:

代码语言:txt复制
pd.interval_range(start=0, end=6, closed="both")  # 两边都关闭

Out26:

代码语言:txt复制
IntervalIndex([[0, 1], [1, 2], [2, 3], [3, 4], [4, 5], [5, 6]],
              closed='both',
              dtype='interval[int64]')

In 27:

代码语言:txt复制
pd.interval_range(start=0, end=6, closed="left")  # 左边关闭

Out27:

代码语言:txt复制
IntervalIndex([[0, 1), [1, 2), [2, 3), [3, 4), [4, 5), [5, 6)],
              closed='left',
              dtype='interval[int64]')

In 28:

代码语言:txt复制
pd.interval_range(start=0, end=6, name="peter")

Out28:

代码语言:txt复制
IntervalIndex([(0, 1], (1, 2], (2, 3], (3, 4], (4, 5], (5, 6]],
              closed='right',
              name='peter',
              dtype='interval[int64]')

pd.CategoricalIndex

代码语言:python代码运行次数:0复制
pandas.CategoricalIndex(
  data=None,   # 数据
  categories=None,  # 分类的数据
  ordered=None,  # 是否排序
  dtype=None,   # 数据类型
  copy=False,   # 副本
  name=None)  # 名字

在下面的例子中我们以一批衣服的尺码作为模拟数据:

In 29:

代码语言:txt复制
# 指定数据
c1 = pd.CategoricalIndex(["S","M","L","XS","M","L","S","M","L","XL"])
c1

Out29:

代码语言:python代码运行次数:0复制
CategoricalIndex(
		# 数据
    ['S', 'M', 'L', 'XS', 'M', 'L', 'S', 'M', 'L', 'XL'], 
    # 出现的不同元素
    categories=['L', 'M', 'S', 'XL', 'XS'],  
    # 默认不排序 
    ordered=False,
    # 数据类型
    dtype='category'
    )

In 30:

代码语言:txt复制
c2 = pd.CategoricalIndex(
    ["S","M","L","XS","M","L","S","M","L","XL"],
    # 指定分类的数据
    categories=["XS","S","M","L","XL"]
)

c2

Out30:

代码语言:txt复制
CategoricalIndex(
	['S', 'M', 'L', 'XS', 'M', 'L', 'S', 'M', 'L', 'XL'], 
	categories=['XS', 'S', 'M', 'L', 'XL'], 
	ordered=False, 
	dtype='category'
	)

In 31:

代码语言:python代码运行次数:0复制
c3 = pd.CategoricalIndex(
    # 数据
    ["S","M","L","XS","M","L","S","M","L","XL"],
    # 分类名字
    categories=["XS","S","M","L","XL"],
    # 确定排序
    ordered=True
)

c3

Out31:

代码语言:python代码运行次数:0复制
CategoricalIndex(
	['S', 'M', 'L', 'XS', 'M', 'L', 'S', 'M', 'L', 'XL'], 
	categories=['XS', 'S', 'M', 'L', 'XL'], 
	ordered=True,  # 已经排序
	dtype='category')

In 32:

代码语言:txt复制
c4 = pd.CategoricalIndex(
    # 待排序的数据
    ["S","M","L","XS","M","L","S","M","L","XL"],
    # 指定分类顺序
    categories=["XS","S","M","L","XL"],
    # 排序
    ordered=True,
    # 索引名字
    name="category"
)

c4

Out32:

代码语言:txt复制
CategoricalIndex(
	['S', 'M', 'L', 'XS', 'M', 'L', 'S', 'M', 'L', 'XL'], 
	categories=['XS', 'S', 'M', 'L', 'XL'], 
	ordered=True, 
	name='category', 
	dtype='category'
	)

CategoricalIndex 索引对象也可以从 Categorical() 方法进行实例化得到:

In 33:

代码语言:txt复制
c5 = pd.Categorical(["a", "b", "c", "c", "b", "c", "a"])

pd.CategoricalIndex(c5)

Out33:

代码语言:txt复制
CategoricalIndex(
	['a', 'b', 'c', 'c', 'b', 'c', 'a'], 
	categories=['a', 'b', 'c'], 
	ordered=False,  # 默认不排序
	dtype='category')

In 34:

代码语言:txt复制
pd.CategoricalIndex(c5, ordered=True)  # 指定排序

Out34:

代码语言:txt复制
CategoricalIndex(
	['a', 'b', 'c', 'c', 'b', 'c', 'a'], 
	categories=['a', 'b', 'c'], 
	ordered=True, # 排序
	dtype='category')

pd.DatetimeIndex

以时间和日期作为索引,通过date_range函数来生成,具体语法为:

代码语言:python代码运行次数:0复制
pd.DatetimeIndex(
  data=None,  # 数据
  freq=NoDefault.no_default,  # 频率
  tz=None,  #  时区
  normalize=False,  # 是否归一化 
  closed=None,  # 区间是否关闭
  # ‘infer’, bool-ndarray, ‘NaT’, 默认‘raise’
  ambiguous='raise',  
  dayfirst=False,  # 第一天
  yearfirst=False,  # 第一年
  dtype=None,  # 数据类型
  copy=False,  # 副本
  name=None  # 名字
)

以时间和日期作为索引,通过date_range函数来生成,具体例子为:

In 35:

代码语言:txt复制
# 默认天为频率
pd.date_range("2022-01-01",periods=6)

Out35:

代码语言:txt复制
DatetimeIndex(
	['2022-01-01', '2022-01-02', 
  '2022-01-03', '2022-01-04',
  '2022-01-05', '2022-01-06'],
  dtype='datetime64[ns]', 
  freq='D'  # 频率
  )

In 36:

代码语言:txt复制
# 日期作为索引,D代表天
d1 = pd.date_range(
"2022-01-01",
periods=6, 
freq="D")
d1

Out36:

代码语言:txt复制
DatetimeIndex(
	['2022-01-01', '2022-01-02', 
  '2022-01-03', '2022-01-04',
  '2022-01-05', '2022-01-06'],
  dtype='datetime64[ns]', 
  freq='D')

In 37:

代码语言:txt复制
# H代表小时
pd.date_range("2022-01-01",periods=6, freq="H")

Out37:

代码语言:txt复制
DatetimeIndex(
	['2022-01-01 00:00:00', '2022-01-01 01:00:00',
  '2022-01-01 02:00:00', '2022-01-01 03:00:00',
  '2022-01-01 04:00:00', '2022-01-01 05:00:00'],
  dtype='datetime64[ns]', 
  freq='H')

In 38:

代码语言:txt复制
# M代表月
pd.date_range("2022-01-01",periods=6, freq="3M")

Out38:

代码语言:txt复制
DatetimeIndex(
	['2022-01-31', '2022-04-30', 
  '2022-07-31','2022-10-31',
  '2023-01-31', '2023-04-30'],
  dtype='datetime64[ns]', 
  freq='3M')

In 39:

代码语言:txt复制
# Q代表季度

pd.date_range("2022-01-01",periods=6, freq="Q")

显示的结果中以一个季度-3个月为频率:

Out39:

代码语言:txt复制
DatetimeIndex(
	['2022-03-31', '2022-06-30', 
  '2022-09-30','2022-12-31',
  '2023-03-31', '2023-06-30'],
	dtype='datetime64[ns]', 
	freq='Q-DEC')

In 40:

代码语言:txt复制
# 指定时区tz

pd.date_range("2022-01-01",periods=6, tz="Asia/Calcutta")

Out40:

代码语言:txt复制
DatetimeIndex(
	['2022-01-01 00:00:00 05:30', '2022-01-02 00:00:00 05:30',
  '2022-01-03 00:00:00 05:30', '2022-01-04 00:00:00 05:30',
  '2022-01-05 00:00:00 05:30', '2022-01-06 00:00:00 05:30'],
  dtype='datetime64[ns, Asia/Calcutta]', freq='D')

pd.PeriodIndex

pd.PeriodIndex是一个专门针对周期性数据的索引,方便针对具有一定周期的数据进行处理,具体用法如下:

代码语言:python代码运行次数:0复制
pd.PeriodIndex(
  data=None,  # 数据
  ordinal=None,  # 序数
  freq=None,  # 频率
  dtype=None,  # 数据类型
  copy=False,  # 副本
  name=None,  # 名字
  **fields
)

生成pd.PeriodIndex对象的方式1:指定开始时间、周期频率

In 41:

代码语言:txt复制
pd.period_range('2022-01-01 09:00', periods=5, freq='H')

Out41:

代码语言:txt复制
PeriodIndex(
['2022-01-01 09:00', '2022-01-01 10:00', 
'2022-01-01 11:00','2022-01-01 12:00', '2022-01-01 13:00'],
dtype='period[H]', freq='H')

In 42:

代码语言:txt复制
pd.period_range('2022-01-01 09:00', periods=6, freq='2D')

Out42:

代码语言:txt复制
PeriodIndex(
['2022-01-01', '2022-01-03', 
'2022-01-05', '2022-01-07',
'2022-01-09', '2022-01-11'],
dtype='period[2D]', 
freq='2D')

In 43:

代码语言:txt复制
pd.period_range('2022-01', periods=5, freq='M')

Out43:

代码语言:txt复制
PeriodIndex(
['2022-01', '2022-02', 
'2022-03', '2022-04', '2022-05'], 
dtype='period[M]', freq='M')

In 44:

代码语言:txt复制
p1 = pd.DataFrame(
    {"name":["xiaoming","xiaohong","Peter","Mike","Jimmy"]},
    # 指定索引
    index=pd.period_range('2022-01-01 09:00', periods=5, freq='3H')
)

p1

生成pd.PeriodIndex对象的方式2:直接使用pd.PeriodIndex方法

In 45:

代码语言:txt复制
pd.PeriodIndex(
['2022-01-01', '2022-01-02', 
'2022-01-03', '2022-01-04'], 
freq = '2H')

Out45:

代码语言:txt复制
PeriodIndex(
['2022-01-01 00:00', '2022-01-02 00:00', 
'2022-01-03 00:00','2022-01-04 00:00'],
dtype='period[2H]', freq='2H')

In 46:

代码语言:txt复制
pd.PeriodIndex(
['2022-01', '2022-02', 
'2022-03', '2022-04'], 
freq = 'M')

Out46:

代码语言:txt复制
PeriodIndex(
['2022-01', '2022-02', 
'2022-03', '2022-04'], 
dtype='period[M]', 
freq='M')

In 47:

代码语言:txt复制
pd.PeriodIndex(['2022-01', '2022-07'], freq = 'Q')

Out47:

代码语言:txt复制
PeriodIndex(
['2022Q1', '2022Q3'], 
dtype='period[Q-DEC]', 
freq='Q-DEC')

生成pd.PeriodIndex对象的方式3:利用date_range函数先生成DatetimeIndex对象

In 48:

代码语言:txt复制
data = pd.date_range("2022-01-01",periods=6)
data

Out48:

代码语言:txt复制
DatetimeIndex(
['2022-01-01', '2022-01-02', 
'2022-01-03', '2022-01-04',
'2022-01-05', '2022-01-06'],
dtype='datetime64[ns]', 
freq='D')

In 49:

代码语言:txt复制
pd.PeriodIndex(data=data)

Out49:

代码语言:txt复制
PeriodIndex(
['2022-01-01', '2022-01-02', 
'2022-01-03', '2022-01-04',
'2022-01-05', '2022-01-06'],
dtype='period[D]', freq='D')

In 50:

代码语言:txt复制
p2 = pd.DataFrame(np.random.randn(400, 1),
             columns=['number'],
             # 指定索引
             index=pd.period_range('2021-01-01 8:00',
                                   periods=400,
                                   freq='D'))
p2

pd.TimedeltaIndex

代码语言:python代码运行次数:0复制
pd.TimedeltaIndex(
  data=None,  # 数据
  unit=None,  # 最小单元
  freq=NoDefault.no_default,  # 频率 
  closed=None,  # 指定关闭的位置
  dtype=dtype('<m8[ns]'),  # 数据类型
  copy=False,  # 副本
  name=None  # 名字
)

创建方式1:指定数据和最小单元

In 51:

代码语言:txt复制
pd.TimedeltaIndex([12, 24, 36, 48], unit='s')

Out51:

代码语言:txt复制
TimedeltaIndex(
	['0 days 00:00:12', '0 days 00:00:24', 
	'0 days 00:00:36','0 days 00:00:48'],
	dtype='timedelta64[ns]', 
	freq=None)

In 52:

代码语言:txt复制
pd.TimedeltaIndex([1, 2, 3, 4], unit='h') # 按小时

Out52:

代码语言:txt复制
TimedeltaIndex(
	['0 days 01:00:00', '0 days 02:00:00', 
	'0 days 03:00:00','0 days 04:00:00'],
	dtype='timedelta64[ns]', 
	freq=None)

In 53:

代码语言:txt复制
pd.TimedeltaIndex([12, 24, 36, 48], unit='h') 

Out53:

代码语言:txt复制
TimedeltaIndex(
	['0 days 12:00:00', '1 days 00:00:00', 
	'1 days 12:00:00','2 days 00:00:00'],
	dtype='timedelta64[ns]', # 数据类型
	freq=None)

In 54:

代码语言:txt复制
pd.TimedeltaIndex([12, 24, 36, 48], unit='D')

Out54:

代码语言:txt复制
TimedeltaIndex(
	['12 days', '24 days', '36 days', '48 days'], 
	dtype='timedelta64[ns]', freq=None)

创建方式2:通过timedelta_range函数来间接生成

In 55:

代码语言:txt复制
data1 = pd.timedelta_range(start='1 day', periods=4)
data1

Out55:

代码语言:txt复制
TimedeltaIndex(['1 days', '2 days', '3 days', '4 days'], dtype='timedelta64[ns]', freq='D')

In 56:

代码语言:txt复制
pt1 = pd.TimedeltaIndex(data1)

pt1

Out56:

代码语言:txt复制
TimedeltaIndex(
	['1 days', '2 days', '3 days', '4 days'], 
	dtype='timedelta64[ns]', freq='D')

In 57:

代码语言:txt复制
data2 = pd.timedelta_range(start='1 day', end='3 days', freq='6H')
data2

Out57:

代码语言:txt复制
TimedeltaIndex(
	['1 days 00:00:00', '1 days 06:00:00', '1 days 12:00:00',
  '1 days 18:00:00', '2 days 00:00:00', '2 days 06:00:00',
  '2 days 12:00:00', '2 days 18:00:00', '3 days 00:00:00'],
  dtype='timedelta64[ns]', freq='6H')

In 58:

代码语言:txt复制
pt2 = pd.TimedeltaIndex(data2)

pt2

Out58:

0 人点赞