Pandas-8. 重建索引

2019-05-29 17:18:40 浏览数 (2)

重建索引会更改DataFrame的行列标签,以实现类似操作:

  • 重新排序现有数据,以匹配一组新的标签
  • 在没有标签数据的标签位置插入缺失(NA)标识

重建索引与其他对象对齐

重建一个对象的索引,轴被重建为和另一个对象相同:

代码语言:javascript复制
df1 = pd.DataFrame(np.random.randn(10,3),columns=['col1','col2','col3'])
df2 = pd.DataFrame(np.random.randn(7,3),columns=['col1','col2','col3'])
df1 = df1.reindex_like(df2)

以上代码df1应该是3列10行,之后和df2对齐。 对齐操作列名应该匹配,无法对齐的列整列置为NAN。

填充时重新加注

reindex()可以添加参数method,指定填充方法:

  • pad/ffill - 向前填充
  • bfill / backfill - 向后填充
  • nearest - 从最近的索引值填充 例如:
代码语言:javascript复制
df1 = pd.DataFrame(np.random.randn(6,3),columns=['col1','col2','col3'])
df2 = pd.DataFrame(np.random.randn(2,3),columns=['col1','col2','col3'])

# Padding NAN's
print(df2.reindex_like(df1))

# Now Fill the NAN's with preceding Values
print ("Data Frame with Forward Fill:")
print (df2.reindex_like(df1, method='ffill'))

以下为显示结果,可以看到最后四行被填充了,并且以之前的第一行作为填充值:

代码语言:javascript复制
       col1      col2      col3
0 -0.354070  1.424280  0.431141
1 -0.266685 -0.511846  1.524848
2       NaN       NaN       NaN
3       NaN       NaN       NaN
4       NaN       NaN       NaN
5       NaN       NaN       NaN
Data Frame with Forward Fill:
       col1      col2      col3
0 -0.354070  1.424280  0.431141
1 -0.266685 -0.511846  1.524848
2 -0.266685 -0.511846  1.524848
3 -0.266685 -0.511846  1.524848
4 -0.266685 -0.511846  1.524848
5 -0.266685 -0.511846  1.524848

重建索引时的填充限制

limit参数在重建索引时提供填充的控制,限制指定连续匹配的次数:

代码语言:javascript复制
df1 = pd.DataFrame(np.random.randn(6,3),columns=['col1','col2','col3'])
df2 = pd.DataFrame(np.random.randn(2,3),columns=['col1','col2','col3'])

# Padding NAN's
print(df2.reindex_like(df1))

# Now Fill the NAN's with preceding Values
print ("Data Frame with Forward Fill limiting to 1:")
print(df2.reindex_like(df1,method='ffill',limit=1))

以下为显示结果。可以看到,只往下填充了一行

代码语言:javascript复制
       col1      col2      col3
0 -0.520323  0.178534  1.697688
1  1.054173 -1.347576 -0.135266
2       NaN       NaN       NaN
3       NaN       NaN       NaN
4       NaN       NaN       NaN
5       NaN       NaN       NaN
Data Frame with Forward Fill limiting to 1:
       col1      col2      col3
0 -0.520323  0.178534  1.697688
1  1.054173 -1.347576 -0.135266
2  1.054173 -1.347576 -0.135266
3       NaN       NaN       NaN
4       NaN       NaN       NaN
5       NaN       NaN       NaN

重命名

rename()方法允许基于一些映射(字典或者Series)或者任意的函数来重新标记一个轴:

代码语言:javascript复制
df1 = pd.DataFrame(np.random.randn(6,3),columns=['col1','col2','col3'])
print(df1)

print("After renaming the rows and columns:")
print(df1.rename(columns={'col1' : 'c1', 'col2' : 'c2'}, index = {0 : 'apple', 1 : 'banana', 2 : 'durian'}))

一下为显示结果,可以看到columns和rows的名称被替换了:

代码语言:javascript复制
       col1      col2      col3
0 -0.184959 -0.638493  1.006453
1  0.547960 -1.238460 -0.534488
2 -0.924793  1.303734 -2.298821
3  0.572345 -0.015453 -0.562422
4  0.935576  0.284868  0.587882
5 -0.249674 -0.097515 -1.072824
After renaming the rows and columns:
              c1        c2      col3
apple  -0.184959 -0.638493  1.006453
banana  0.547960 -1.238460 -0.534488
durian -0.924793  1.303734 -2.298821
3       0.572345 -0.015453 -0.562422
4       0.935576  0.284868  0.587882
5      -0.249674 -0.097515 -1.072824

rename()方法提供了饿一个inplace命名参数,默认为Flase并复制底层数据,指定传递inplace = Ture来标识将数据重命名。

0 人点赞